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本 书 是 关于 形式 语言 、 自 动机 理论 和 计算 复杂 性 方面 的 经 典 教材 ， 是 二 位 理论 计算 大 师 的 识 峰 之 
作 ， 现 已 更 新 到 第 3 版 。 书 中 涵盖 了 有 穷 自动 机 、 正 则 表达 式 与 语言 正则 语言 的 性 质 、 上 下 文 无 关 文 
法 及 上 下 文 无 关 语 言 、 下 推 自动 机 、 上 下 文 无 关 语言 的 性 质 、 图 灵机 个 可 判定 性 以 及 难 解 问题 等 内 容 . 

本 书 已 被 世界 许多 著名 大 学 采用 为 计算 机 理论 课程 的 教材 或 教学 参考 书 ， 这 合作 为 国内 高 校 计算 
机 专业 高 年 级 本 科 生 或 研究 生 的 教材 ， 还 可 供 从 事理 论 计算 工作 的 研究 人 员 参 考 。 


本 书 特点 : 
e 以 简洁 和 易 理 解 的 方式 讲述 理论 概念 。 
8 哇 调 理论 的 现代 应 用 ， 
® 使 用 大 量 的 图 来 帮助 表达 概念 。 
@ 提供 定义 和 证 明 的 更 多 细节 。 
e@ 每 章 提 供 大 量 难 易 程 度 不 同 的 练习 。 
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本 书 是 关于 形式 语言 、 自 动机 理论 和 计算 复杂 性 方面 的 经 典 之 作 ， 是 国际 上 得 到 广泛 
认可 的 计算 机 理论 和 计算 机 斑 程 专业 的 优秀 教材 。 书 中 涵盖 了 有 穷 自动 机 、 正 则 表达 式 与 
语言 、 正 则 语言 的 性 质 、 上 下 文 无 关 文 法 及 上 下 文 无 关 语 言 、 下 推 自动 机 、 上 下 文 无 关 语 
言 的 性 质 、 图 灵机 、 不 可 判定 性 以 及 难 解 问题 等 内 容 。 本 书 注重 定义 、 定 理 的 准确 性 和 严 
格 性 ， 注 重 学 生 形式 化 和 严格 的 数学 推理 能 力 的 培养 ， 同 时 在 定义 和 证 明 中 运用 直观 的 方 
法 说 明 抽 象 概念 ， 借 助 许多 图 表 帮 助 传达 思想 ， 并 包含 大 量 难度 各 异 的 示例 和 习题 ， 便 于 
读者 加 深 对 内 容 的 理解 。 

本 书 适合 作为 计算 机 专业 高 年 级 本 科 生 及 研究 生计 算 理 论 课 程 的 教材 和 教学 参考 书 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 芍 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵 循 学 术 规范 ， 又 自 有 学 者 个 性 ， 二 仿生 共 个 会 
因 年 月 的 流下 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ，3 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 民 好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 杜 选 出 Andrew S. Tanenbaum，Bjarne Stroustrup ， 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 瞻 力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书 籍 在 读者 中 树立 了 恨 好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐 产 次 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 ; 


华章 网 站 : www.hzbook.com 
电子 邮件 : hzedu@hzbook.com 
联系 电话 : (010) 68995264 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 
邮政 编码 :100037 华章 科技 图 书 出 版 中 心 





六 
El 
hd 
a 
刁 
Re 
i 3 
和 
出让 
最 
入 


理论 计算 机 科学 是 推动 计算 机 技术 向 前 发 展 的 强大 动力 。 自 动机 、 形 式 语言 、 可 计算 性 和 
相关 方面 内 容 构 成 的 计算 理论 ， 是 理论 计算 机 科学 的 基础 内 容 之 一 。 学 习 、 研 究 这 些 内 容 ， 不 
仅 为 进一步 学 习 、 研 究 理论 计算 机 科学 所 必需 ， 而 且 对 增强 形式 化 能 力 和 推理 能 力 有 重要 作用 ， 
这 些 能 力 对 从 事 计算 机 技术 中 的 软件 形式 化 等 研究 ， 是 不 可 缺少 的 。 

本 书 是 由 John E. Hopcroft、Rajeev Motwani 和 Jeffrey D. Ullman 三 位 计算 机 学 者 合作 编写 的 ， 
是 最 著名 的 理论 计算 机 科学 著作 之 一 ， 是 世界 各 国 广泛 采用 的 计算 机 理论 专业 和 计算 计 工 程 专 
业 的 优秀 教材 之 一 。 它 主要 介绍 形式 语言 、 自 动机 、 可 计算 性 和 相关 方面 内 容 。 它 特别 注意 定 
义 、 定 理 的 准确 性 和 严格 性 ， 这 有 利于 培养 学 生 形 式 化 和 严格 的 数学 推理 的 能 力 。 本 书 第 1 版 于 
1979 年 发 行 。 它 的 第 3 版 有 一 个 新 的 特色 ， 那 就 是 增加 了 一 套 由 Gradiance 公 司 开 发 的 在 线 作 业 帮 
助 系统 。 教 师 可 以 利用 它 给 学 生 安 排 课 后 作业 ， 或 者 给 那些 没有 选课 的 学 生 提供 一 个 特殊 的 综 
合 读 程 〈 不 是 由 老师 申请 开设 的 课程 )， 使 得 他 们 可 以 利用 这 些 课 后 作业 作为 练习 和 指导 。 然 而 
遗憾 的 是 ，Gradiance 在 线 作 业 系统 只 适用 于 购买 原版 教材 的 北美 地 区 学 生 ， 中 国学 生还 不 能 使 
用 这 个 系统 ， 因 此 ， 我 们 在 翻译 第 3 版 的 过 程 中 ， 对 涉及 Gradiance 系 统 的 内 容 进 行 了 删 减 。 

引进 国外 的 优秀 计算 机 教材 ， 无 疑 会 对 我 国 的 计算 机 教育 事业 的 发 展 起 积极 推动 作用 ,也 
是 与 世界 接轨 、 建 立 世界 一 流 大 学 不 可 缺少 的 条 件 。 我 们 把 本 书 介绍 给 国内 从 事 计 算 机 教育 事 
业 的 同行 们 ， 以 供 参考 。 

这 个 译本 是 根据 原 书 第 3 版 翻译 的 。 参 加 本 书 翻译 的 有 : 孙 家 驻 同 志 ， 负 责 各 章 译 稿 的 详细 
修改 和 全 书 的 统 稿 ， 刘 明 浩 同志 ， 负 责 第 1~ 3 章 及 前 言 、 目 录 的 翻译 ， 孙 自然 同志 ， 负 责 第 4; 
5 章 的 翻译 ， 王 啸 吟 同 志 ， 负 责 第 6、7 章 的 翻译 ， 王 华 同 志 ， 负 责 第 8、9% 章 的 翻译 ， 侯 姗 姗 同志 ， 
负责 第 10、11 章 及 索引 的 翻译 。 为 了 与 本 书 第 2 版 中 译本 用 的 名 词 、 术 语 保持 统一 ， 在 翻译 过 程 
中 我 们 参考 了 由 刘 田 、 姜 晖 和 王 捍 贫 同志 完成 的 本 书 第 2 版 中 译本 。 

由 于 我 们 的 能 力 有 限 ， 难 免 有 不 当 之 处 ， 敬 请 读者 不 音 赐 教 。 


译 者 
2008 年 3 月 
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在 本 书 1979 年 出 版 的 前 一 版 的 前 言 中 ，Hopcroft 和 Ullman 对 于 下 面 的 事实 感到 惊 诈 不 已 ;与 
1969 年 他 们 写 第 一 本 书 时 的 情形 相 比 ， 自 动机 这 一 专题 已 经 有 了 突破 性 地 发 展 。 的 确 ，1979 年 
版 的 书 中 包含 许多 在 以 前 的 著作 中 找 不 到 的 主题 ， 篇 幅 增 加 了 大 约 一 倍 。 如 果 读 者 有 兴趣 把 本 
书 与 1979 年 版 的 那 本 书 做 个 比较 就 会 发 现 ， 正 如 20 世 纪 70 年 代 的 汽车 那样 ， 本 书 是 “外 看 大 ， 
内 看 小 ”。 这 表面 看 起 来 像 是 退步 ;但 是 我 们 有 理由 对 此 变化 感到 高 兴 。 

首先 ， 在 1979 年 ， 自 动机 和 语言 理论 还 是 一 个 比较 活跃 的 研究 领域 。 那 本 书 的 主要 目的 是 
鼓励 擅长 数学 的 学 生 为 这 个 领域 做 出 新 的 贡献 。 然 而 今天 ， 直 接 针对 自动 机 理论 的 研究 几乎 已 
经 销声匿迹 (相反 ,更 多 的 是 对 其 应 用 的 研究 )， 因 此 也 就 没有 理由 继续 保持 1979 年 那 本 书 的 简 
洁 和 高 度数 学 化 的 风格 。 

其 次 ， 在 过 去 的 20 年 里 ， 自 动机 和 语言 理论 的 角色 已 经 发 生 了 很 大 的 变化 。 在 1979 年 ， 自 
动机 还 主要 是 研究 生 水 平 的 专题 ， 那 时 我 们 假定 的 读者 是 高 年 级 研究 生 ， 特 别 是 使 用 这 本 书后 
儿 章 的 那些 读者 。 然 而 到 了 今天 ， 它 已 经 成 为 本 科 生 课程 的 主要 内 容 。 正 是 基于 这 个 原因 ， 本 
书 在 编排 时 必须 假定 对 于 读者 只 有 很 少 的 预备 知识 的 要 求 ,因此 必须 比 前 一 版 本 的 书 提供 更 多 
的 背景 知识 介绍 和 论证 的 细节 。 

环境 的 第 三 个 变化 是 ， 计 算 机 科学 在 过 去 的 30 年 里 已 经 发 展 到 了 几乎 无 法 想像 的 程度 。 在 
1979 年 ， 我 们 觉得 可 能 会 经 受 得 起 下 一 轮 技术 考验 的 材料 太 少 了 ， 以 致 于 排 满 课程 计划 都 很 
难 ， 然 而 今天 ， 却 有 非常 多 的 子 科 目 在 竞争 本 科 生 课程 的 有 限 空间 。 

第 四 ， 计 算 机 科学 如 今 已 经 发 展 成 为 更 加 职业 化 的 科目 ， 在 许多 学 习 它 的 学 生 中 存在 着 严 
重 的 实用 主义 倾向 。 但 我 们 仍然 相信 ， 自 动机 理论 的 方方面面 是 各 种 新 兴学 科 的 重要 工具 ， 并 
且 我 们 相信 ， 无 论 学 生 多 么 倾向 于 只 去 学 习 那 些 最 能 直接 赚钱 的 技术 ， 但 在 典型 的 自动 机 课程 
中 ， 那 些 理论 的 和 有 利于 拓宽 思维 的 习题 依然 可 以 保持 其 价值 。 然 而 ， 为 了 保证 这 个 科目 在 计 
算 机 科学 专业 学 生 的 课程 表 中 继续 占有 一 席 之 地 ， 我 们 相信 有 必要 在 强调 数学 理论 的 同时 也 强 
调 应 用 。 因 此 ， 我 们 把 上 一 版 中 许多 比较 深奥 的 主题 换 成 了 今天 如 何 使 用 这 些 思想 的 例子 ， 虽 
然 自动 机 和 语言 理论 在 众多 编译 器 上 的 应 用 如 今 已 经 广为人知 ， 以 至 于 这 些 内 容 通常 已 经 包含 
在 介绍 编译 技术 的 课程 中 ， 但 是 还 存在 一 些 较 新 的 用 途 ， 包 括 用 来 验证 协议 的 模型 验证 算法 以 
及 采用 与 上 下 文 无 关 文法 的 模式 的 文本 描述 语言 等 ， 本 书 对 此 进行 了 补充 说 明 

对 于 本 书 内 容 增 减 的 最 后 一 项 解释 是 ， 如 今 我 们 能 够 充分 利用 Don Knuth 和 Les Lamport 开 发 
的 TEX 和 LATEX 排 版 系统 的 优点 。 特 别 是 后 一 种 系统 ， 它 鼓励 “开放 ” 式 的 排版 ， 让 书籍 篇 幅 
更 大 ， 但 更 容易 阅读 。 感 谢 这 两 个 人 的 努力 为 本 书 出 版 发 行 作 出 的 贡献 


本 书 用 法 
本 书 适合 于 本 科 三 年 级 以 上 学 生 的 一 季度 或 一 学 期 的 课程 。 在 斯 坦 福 大 学 ， 我 们 把 这 份 讲 
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义 用 在 CS154 课 程 中 ， 这 是 自动 机 和 语言 理论 的 课程 。 这 是 门 一 季度 的 课程 ，Rajeev 和 Jeffrey 都 
曾经 教 过 。 由 于 授课 时 间 有 限 ， 第 11 章 不 包括 在 授课 范围 以 内 ， 后 面 一 些 材料 〈 比 如 较 难 的 10.4 
节 中 的 多 项 式 时 间 归 约 等 内 容 ) 也 都 省 略 了 。 本 书 的 网 站 (参见 下 面 ) 包括 CS154 课 程 的 笔记 和 
教学 大 纲 等 材料 。 

几 年 前 我 们 发 现 ， 许 多 进入 斯 坦 福 大 学 的 研究 生 都 学 过 一 门 不 包括 难 解 性 理论 的 自动 机 理 
论 课程 。 由 于 斯 坦 福 大 学 的 全 体 教 员 相 信 ， 对 于 每 一 位 计算 机 科学 家 来 说 ， 仅 仅 停 留 在 知道 
“NP 完 全 意味 着 需要 花费 很 长 时 间 ” 这 一 层面 是 远 远 不 够 的 ， 充 分 了 解 这 些 思想 是 十 分 必要 的 ， 
所 以 就 有 了 另外 一 门 课程 CS154N， 选 这 个 课 的 学 生 可 以 只 学 习 第 8、9 和 10 章 。 他 们 实际 上 学 习 
CS154 课 程 大 约 后 三 分 之 一 部 分 的 内 容 ， 由 此 来 满足 CS154N 课 程 的 要 求 。 即 使 在 今天 ， 我 们 仍 
然 发 现 ， 每 个 季度 都 有 一 些 学 生 采 取 这 种 优化 的 课程 选项 。 由 于 这 样 做 几乎 不 需要 额外 的 努力 ， 
所 以 我 们 推荐 使 用 这 种 方法 。 


预备 知识 


为 了 最 好 地 使 用 本 书 ， 读 者 应 当 在 这 以 前 学 过 一 门 关 于 离散 数学 (如 图 、 树 、 逻 辑 、 证 明 
技巧 等 ) 的 课程 。 我 们 还 假设 读者 学 过 一 些 有 关 程 序 设计 的 课程 ， 熟 悉 常 见 的 数据 结构 、 递 归 
和 主要 系统 组 件 〈 如 编译 器 ) 的 作用 等 。 这 些 预 备 知识 一 般 应 当 包含 在 大 学 一 、 二 年 级 计算 机 
科学 课程 计划 中 。 


习题 


本 书 中 包含 大 量 的 习题 ， 几 乎 每 个 章节 都 有 。 我 们 将 较 难 的 习题 或 其 中 的 某 一 部 分 用 单个 
叹 号 标 出 ， 最 难 的 则 用 两 个 叹 号 标 出 。 

茶 些 习题 或 其 中 的 某 一 部 分 标 有 星 号 。 对 于 这 部 分 习题 ， 其 解答 方法 可 以 通过 本 书 的 网 页 
获得 。 这 些 解 答 可 以 公开 获得 ， 只 限于 进行 自我 检查 。 需 要 注意 的 一 点 是 ， 在 少数 情况 下 ， 习 
题 B 要 求 修 改 或 改编 对 另 一 个 习题 A 的 解答 。 如 果 A 的 某 些 部 分 有 解答 ， 那 么 你 就 应 当 预 期 B 的 
对 应 部 分 也 应 当 有 解答 。 


Gradiance 在 线 作 业 


本 书 第 3 版 有 一 个 新 的 特色 ， 即 增加 了 一 套 由 Gradiance 公 司 开发 的 在 线 作业 伴随 系统 。 教 师 
可 以 利用 它 给 学 生 安 排 课 后 作业 ， 或 者 给 那些 没有 选课 的 学 生 提 供 一 个 特殊 的 综合 课程 (不 是 
由 老师 申请 开设 的 课程 )， 使 得 他 们 可 以 利用 这 些 课 后 作业 作为 练习 和 指导 。Gradiance 系 统 所 提 
供 的 问题 和 普通 问题 的 形式 一 样 ， 但 会 对 你 提交 的 解决 方案 进行 检查 。 如 果 你 提交 的 答案 不 正 
确 ， 系 统 将 会 提供 一 些 针对 性 的 建议 或 反馈 意见 ， 以 帮助 纠正 你 的 解决 方案 。 只 要 你 的 老师 允 
许 ， 就 可 以 重复 尝试 ， 直 到 达到 一 个 满意 的 分 数 为 止 。 

所 有 在 北美 地 区 购买 这 本 书 第 3 版 的 读者 ， 都 将 自动 获得 这 项 Gradiance 在 线 作 业 服 务 的 授权 。 
更 多 的 信息 ， 请 访问 Addison-Wesley 网 站 www.aw.com/gradiance 或 者 发 邮件 给 computing@aw.com 。 


日 _Gradiance 系 统 对 中 国学 生 不 适用 ， 因 此 第 3 版 翻译 中 删除 了 有 关 该 系统 的 内 容 。 一 一 编者 注 
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万 维 网 上 的 支持 


本 书 的 主页 是 

http://www-db.stanford .edu/~ ullman/ialc.html 

其 中 包含 带 星 号 习题 的 解答 、 已 知 的 勘误 表 、 后 备 材料 等 。 我 们 希望 提供 所 教 CS154 课 程 的 
所 有 笔记 材料 ， 包 括 课 后 作业 、 习 题解 答 和 考试 等 。 
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第 1 章 自动 机 : 方法 与 体验 


目 动机 理论 研究 抽象 计算 装置 或 “机 器 ”。 在 20 世 纪 30 年 代 计算 机 出 现 之 前 ， 图 灵 研 究 过 一 
种 抽象 机 器 ， 这 种 机 器 具备 了 今天 计算 机 的 所 有 能 力 ， 至 少 在 计算 能 力 上 是 这 样 的 。 图 灵 的 目 
标 是 精确 地 描述 一 条 界线 ， 这 条 界线 区 分 计算 机 能 做 什么 和 不 能 做 什么 ， 图 灵 的 结论 不 仅 适用 
于 抽象 的 图 灵机 ， 也 适用 于 今天 的 真实 机 器 。 

在 20 世 纪 40 和 50 年 代 ， 许 多 研究 者 研究 过 更 简单 类 型 的 机 器 ， 今 天 称 为 “有 穷 自 动机 ”。 起 
急 建 议 用 这 些 自 动机 来 为 人 脑 功能 建立 模型 ， 后 来 发 现 这 些 自动 机 对 于 1.1 节 提 到 的 各 种 其 他 目 
的 也 极为 有 用 。 在 20 世 纪 50 年 代 后 期 , 语言 学 家 乔 姆 斯 基 (N. Chomsky) 开始 研究 形式 “文法 ”。 
尽管 这 些 文法 不 是 严格 意义 上 的 机 器 ， 但 与 抽象 自动 机 有 密切 关系 ,而 且 目 前 是 一 些 重要 软件 
部 件 (包括 部 分 编译 器 在 内 ) 的 基础 。 

在 1969 年 ， 库 殉 〈S. Cook) 扩展 了 图 灵 对 什么 能 被 计算 和 什么 不 能 被 计算 的 研究 。 库 克 设 
法 分 离 出 了 两 类 问题 : 一 类 是 计算 机 能 有 效 解决 的 ， 另 一 类 是 计算 机 理论 上 能 解决 ， 但 实际 上 
要 花费 太 长 时 间 ， 以 致 除 了 非常 小 的 问题 实例 以 外 ,计算机 是 毫 无 用 处 的 。 后 一 类 问题 称 为 
难 解 的 ”或 “NP- 难 的 "。 计 算 机 硬件 一 直 遵循 着 计算 速度 呈 指 数 增长 的 规律 (摩尔 定律 )， 但 
这 也 不 太 可 能 显著 地 影响 解决 难 解 问题 大 实例 的 能 力 。 

所 有 这 些 理论 进展 都 直接 影响 了 计算 机 科学 家 今天 的 工作 。 有 些 概念 ， 比 如 有 穷 自动 机 和 
茶 些 类 型 的 形式 文法 ， 用 于 设计 和 构造 重要 类 型 的 软件 。 另 一 些 概念 ， 比 如 图 灵机 ， 则 帮助 我 
们 理解 能 期 待 软件 做 什么 。 特 别 是 ， 难 解 问题 的 理论 允许 推断 是 否 有 可 能 “正面 ”处 理 一 个 问 
题 ， 损 写 解决 这 个 问题 的 程序 (因为 这 个 问题 不 属于 难 解 的 一 类 ) ， 或 者 是 否 需要 找到 某 种 方法 
来 迁 回 处 理 这 个 难 解 的 问题 ， 找 近似 算法 、 用 启发 式 算法 或 者 用 某 种 其 他 方法 来 限制 程序 解决 
这 个 问题 所 花费 的 时 间 。 

本 音 作 为 入 门 性 的 内 容 ， 首 先 从 概述 高 级 自动 机 理论 的 内 容 和 用 途 开始 。 本 章 许多 篇 幅 用 
来 总 结 证 明 技术 和 发 现 证 明 的 技巧 。 这 些 内 容 包括 : 演绎 证 明 、 命 题 变 形 、 反 证 法 .归纳 证 明 
以 及 其 他 重要 概念 。 最 后 一 节 介 绍 一 些 贯穿 自动 机 理论 的 概念 : 字母 表 、 串 以 及 语言 . 


1.1 为 什么 研究 自动 机 理论 


有 几 个 理由 解释 了 为 什么 自动 机 和 复杂 性 的 研究 是 计算 机 科学 核心 的 重要 部 分 ， 本 节 要 向 
读者 介绍 主要 的 动机 并 概括 本 书 讨论 的 主要 主题 。 


1.1.1 有 穷 自动 机 简介 


有 穷 目 动机 是 许多 重要 类 型 的 硬件 和 软件 的 有 用 模型 。 从 第 2 章 开始 会 看 到 如 何 使 用 这 些 概 
念 的 例子 。 目 前 只 列 出 一 些 最 重要 的 类 型 





1. 数 字 电 路 的 设计 和 性 能 检查 软件 。 

2. 典型 编译 器 的 “词法 分 析 器 ”， 也 就 是 说 ， 把 输入 文本 分 解 为 诸如 标识 符 、 关 键 字 和 标 拟 

符号 等 逻辑 单元 的 编译 右 部 件 。 

3. 扫描 大 量 文 本 (如 收集 到 的 网 页 ) 来 发 现 单词 、 短 语 或 其 他 模式 的 出 现 的 软件 。 

4. 所 有 类 型 的 只 有 有 穷 多 个 不 同 状 态 的 系统 〈 比 如 通信 协议 或 安全 交换 信息 的 协议 ) 的 验 

证 软件 。 

很 快 就 会 遇 到 各 种 类 型 自动 机 的 精确 定义 ， 非 形式 化 的 介绍 从 概述 有 穷 目 动机 是 什么 和 做 
什么 开始 。 可 以 认为 许多 系统 或 部 件 (如 上 面 列举 的 那些 ) 始终 处 在 有 穷 多 个 “状态 ”之 一 。 
状态 的 目的 是 记 住 系统 历史 的 有 关 部 分 。 由 于 只 有 有 穷 多 个 状态 ， 在 一 般 情况 下 不 可 能 记 住 整 
个 历史 ， 所 以 必须 仔细 地 设计 系统 ， 以 记 住 重要 的 历史 部 分 而 扎 记 不 重要 的 。 只 有 有 穷 多 个 状 
态 的 好 处 是 用 固定 的 资源 就 能 实现 系统 。 例 如 ， 可 用 硬件 将 其 实现 为 电路 ， 或 者 实现 为 简单 形 
式 的 程序 ， 这 种 程序 只 查看 有 限 的 数据 就 能 做 出 决定 ， 或 者 用 代码 本 身 中 的 位 置 来 做 出 决定 。 


例 1.1 也 许 最 简单 的 非 平 几 有 穷 自动 机 是 两 相 开 关 。 这 个 装置 记 住处 在 “ 开 ” 状 态 或 “ 关 ” 
状态 ， 人 允许 用 户 按 按钮 ， 这 个 按钮 根据 开关 状态 起 不 同 作 用 。 也 就 是 说 ， 如 果 开 关 处 在 关 状 态 ， 
按 这 个 按钮 就 变 成 开 状 态 ， 如 果 开 关 处 在 开 状 态 ， 按 这 个 按钮 就 变 成 关 状 态 。 

这 个 开关 的 有 穷 目 动机 模型 如 图 1-1 所 示 。 对 所 有 的 有 穷 目 动机 都 一 样 ， 状 态 用 圆圈 表示 。 
在 这 个 例子 中 ,命名 了 状态 on ( 开 ) 和 off 〈( 关 )。 状 态 之 间 的 箭 


头 用 “输入 ”来 标记 ， 表 示 作 用 在 系统 上 的 外 部 影响 。 这 里 两 个 J 
箭头 都 用 Push ( 按 ) 来 标记 ， 表 示 用 户 按 这 个 按钮 ， 这 两 个 箭头 Stait 
的 含义 是 ; 无 论 系 统 处 在 什么 状态 ， 当 收 到 输入 Push 时 ， 就 进入 (orr ) (on) 
另 一 个 状态 。 

把 一 个 状态 指定 为 “初始 状态 ”， 即 系统 开始 时 所 处 的 状态 ， Push 
在 这 个 例子 中 ， 初 始 状态 是 off， 习 惯 上 用 单词 Start (开始 ) 和 一。 图 1-1 为 两 相 开关 建立 模型 
个 指向 这 个 状态 的 箭头 来 说 明 初 始 状态 。 的 有 穷 日 动机 


通 闸 需要 说 明 一 个 或 多 个 状态 是 “终止 ”或 “接受 ”状态 。 在 经 历 一 个 输入 序列 后 进入 这 
些 状态 之 一 ， 说 明 这 个 输入 序列 在 某 种 程度 上 是 好 的 。 例 如 ， 可 以 认为 图 1-1 中 的 on 状态 是 接受 
状态 ， 因 为 在 这 个 状态 下 ,这 个 由 开关 控制 的 装置 将 会 运行 。 习 惯 上 用 双 圆 圈 来 说 明 接受 状态 ， 
但 在 图 1-1 中 没有 做 这 样 的 说 明 。 口 

例 1.2 有 时 候 ， 一 个 状态 记忆 的 内 容 比 一 个 开关 选择 要 复杂 得 多 。 i 图 1-2 显 示 男 一 个 有 穷 自 
动机 ， 它 可 能 是 词法 分 析 絮 的 一 部 分 。 这 个 上 自动 机 的 任务 是 识别 关键 字 then。 因 此 这 个 自动 机 
需要 5 个 状态 ， 每 个 状态 表示 在 单词 then 中 目前 已 经 到 达 的 不 同位 置 。 这 些 位 置 对 应 于 这 个 单 
词 的 前 缀 ， 范 围 从 空 串 〈 即 一 点 也 没有 看 见 这 个 单词 ) 到 整个 单词 。 


图 1-2 为 识别 then 建 立 模 型 的 有 穷 自动 机 


在 图 1-2 中 ， 用 目前 已 经 看 到 的 then 的 前 缀 来 命名 5 个 状态 。 输 入 对 应 字母 。 可 以 想像 ， 词 
法 分 析 器 每 次 检查 正在 编译 的 程序 的 一 个 字母 ， 要 检查 的 下 一 个 字母 就 是 自动 机 的 输入 。 初 始 
状态 对 应 空 串 。 每 个 状态 在 then 的 下 一 个 字母 上 转移 到 对 应 于 下 一 个 更 长 前 组 的 状态 上 。 当 输 
入 拼写 了 单词 then 时 ， 就 进入 了 名 为 then 的 状态 。 由 于 这 个 自动 机 的 任务 是 识别 何 时 已 经 看 
到 了 then， 所 以 可 认为 这 个 状态 是 惟一 的 接受 状态 。 加 


1.1.2 结构 表示 法 


有 两 种 不 像 自动 机 但 在 自动 机 的 研究 和 应 用 中 起 重要 作用 的 重要 记号 。 
1. 文 法 在 设计 某 种 软件 时 是 有 用 的 模型 ， 这 种 软件 处 理 带 递归 结构 的 数据 。 最 著名 的 例子 
是 “语法 分 析 器 “， 即 处 理 典型 程序 设计 语言 中 递归 和 骨 套 特征 的 编译 器 部 件 ， 这 些 特征 比 
如 是 表达 式 ，( 如 算术 表达 式 、 条 件 表 达 式 等 )。 例 如 ， 像 8=>E + E 这 样 的 文法 规则 提出 ， 
把 两 个 表达 式 用 加 号 连 起 来 就 形成 一 个 表达 式 ， 对 于 真正 的 程序 设计 语言 如 何 构造 表达 
式 来 说 ， 这 条 规则 是 典型 的 。 第 5 章 将 介绍 通常 所 说 的 上 下 文 无 关 文 法 。 
.正则 表达 式 也 表示 数据 的 结构 ， 特 别 是 文本 串 。 在 第 3 章 将 会 看 到 ， 正 则 表达 式 描述 的 串 
模式 恰好 与 有 穷 自 动机 描述 的 一 样 。 这 些 表达 式 的 风格 与 文法 的 风格 有 显著 不 同 。 这 里 
只 举 一 个 简单 的 例子 。UNIX 风 格 的 正则 表达 式 '[A-Z][a-z]*[ ][A-2][A-z]' 表示 
首 字母 大 写 的 单词 后 面 跟着 一 个 空格 和 两 个 大 写字 母 。 这 个 表达 式 表示 文本 中 城市 和 州 
的 模式 ， 如 Ithaca NY。 这 个 表达 式 不 能 表示 有 多 个 单词 的 城市 名 ， 如 Palo Alto CA， 
这 可 以 用 更 复杂 的 表达 式 

[RA-2][a-z]x*([ ][A-Z2][a-z]*)*[ ][A-2][A-2]， 


来 表示 。 在 解释 这 种 表达 式 时 ， 只 需要 知道 [A-2] 表 示 从 大 写字 母 AR 到 大 写字 母 2 的 字符 范围 
( 即 任意 的 大 写字 母 )， 用 [ ] 表 示 单 个 的 空格 字符 。 而 且 ， 符 号 * 表 示 “ 任 意 多 个 ”前 面 的 表达 
式 。 插 号 用 来 对 表达 式 各 部 分 进行 分 组 ， 而 不 表示 所 描述 的 文本 中 的 字符 。 


1.1.3 自动 机 与 复杂 性 


对 计算 局 限 性 的 研究 来 说 ， 自 动机 是 必 不 可 少 的 。 正 如 本 章 前 言 中 所 说 ， 有 两 个 重要 问题 

1. 计算 机 到 底 能 做 什么 ?这 种 研究 称 为 “可 判定 性 ”, 计算 机 能 解决 的 问题 称 为 “可 判定 的 ”。 
第 9 章 讨论 这 个 主题 。 

2. 计算 机 能 有 效 地 做 什么 ?这 种 研究 称 为 “ 难 解 性 "， 计 算 机 用 不 超过 输入 规模 的 某 个 缓慢 增 
长 函数 的 时 间 所 能 解决 的 问题 ， 称 为 “ 易 解 的 "。 通 常 ， 把 所 有 的 多 项 式 函数 当 作 “缓慢 增 
长 的 "， 而 把 比 任何 多 项 式 都 增长 得 快 的 函数 看 作 增 长 得 太 快 了 。 第 10 章 讨论 这 个 主题 。 


1.2 形式 化 证 明 简 介 


如 采 在 20 世 纪 90 年 代 以 前 的 任何 时 候 ， 在 高 中 学 习 平面 几何 ， 就 很 可 能 不 得 不 做 一 些 详细 
的 “演绎 证 明 ”， 即 用 详细 的 步骤 和 理由 序列 来 证 明 命题 的 正确 性 。 对 于 为 什么 在 高 中 学 习 这 个 
数学 分 支 来 说 ， 几 何 有 实用 的 一 面 (例如 ， 要 为 房间 买 到 大 小 合适 的 地 毯 ， 就 要 知道 计算 先 形 
面积 的 公式 )， 但 学 习 形 式 化 证 明 方法 也 是 同样 重要 的 理由 。 

20 世 纪 90 年 代 ， 美 国 的 流行 趋势 是 把 证 明 当 做 对 命题 的 个 人 感觉 。 感 觉 要 使 用 的 命题 是 正 
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确 的， 这 是 好 事 ， 但 在 高 中 不 再 掌握 重要 的 证 明 技术 了 。 但 证 明 还 是 每 个 计算 机 科学 家 需要 理 
解 的 东西 。 某 些 计算 机 科学 家 采取 极端 的 观点 : 程序 正确 性 的 形式 化 证 明 应 当 与 编写 程序 本 身 
同步 进行 。 作 者 怀疑 这 样 做 是 否 有 成 效 。 另 一 方面 ， 有 人 说 在 程序 设计 的 原理 中 不 包括 证 明 。 
这 个 阵营 经 常 提出 这 样 的 口号 :“ 如 果 不 能 肯定 程序 是 正确 的 ， 就 运行 这 个 程序 来 测试 一 下 。 

作者 的 立场 处 在 这 两 种 极端 之 间 。 程 序 测试 肯定 是 必要 的 。 但 是 ， 测 试 只 能 走 这 么 远 ， 因 
为 不 可 能 在 每 个 输入 上 测试 程序 。 更 重要 的 是 ， 如 果 程 序 是 复杂 的 ， 比 如 说 棘手 的 递归 或 旭 代 ， 
那么 在 进行 循环 或 递归 调用 函数 时 ， 若 不 能 理解 正在 干什么 ， 就 不 太 可 能 写 出 正确 的 程序 代码 。 
当 测 试 说 明代 码 不 正确 时 ， 仍 然 需 要 修改 代码 。 

要 形成 正确 的 迭代 或 递归 ， 就 要 建立 归纳 假设 ， 形 式 化 或 非 形 式 化 地 推导 出 这 个 假设 与 达 
代 或 递归 是 相 容 的 ， 这 样 做 是 有 帮助 的 。 理 解 正确 程序 的 工作 过 程 ， 这 个 过 程 与 用 归纳 法 证 明 
定理 的 过 程 实质 上 是 一 样 的 。 因 此 ， 在 提供 某 种 类 型 软件 的 有 用 模型 之 外 ， 学 习 形 式 化 证 明 的 
方法 学 ， 这 成 了 自动 机 理论 课程 的 传统 。 也 许 比 起 计算 机 科学 的 其 他 核心 课题 来 说 ， 目 动机 理 
论 本 身 有 着 更 多 自然 的 和 有 趣 的 证 明 ， 既 有 演绎 类 型 《有 根据 的 步骤 的 序列 ) ， 也 有 归纳 类 型 
( 带 参数 命题 的 递归 证 明 ， 证 明 用 到 带 “ 较 小 ”参数 值 的 命题 本 身 ) 。 


1.2.1 演绎 证 明 


前 面 说 过 ， 演 绎 证 明 包 含 命 题 序列 ， 其 正确 性 导致 从 某 个 初始 命题 〈 称 为 前 提 或 已 知 命 题 ) 
得 出 “结论 ”命题 。 证 明 中 每 一 步 都 必须 根据 菏 条 公认 的 逻辑 原理 ， 利 用 已 知 的 事实 或 演绎 证 
明 中 前 面 的 一 些 命 题 ， 或 利用 这 两 者 的 组 合 。 

前 提 可 能 为 真 也 可 能 为 假 ， 这 通常 依赖 于 参数 值 。 前 提 常 常 包含 几 个 独立 命题 ， 用 逻辑 
AND (与 ) 联结 。 在 这 些 情况 下 ， 就 说 每 个 命题 是 一 个 前 提 或 已 知 命题 。 

当 从 前 提 恕 到 结论 C 时 ， 所 证 明 的 定理 是 命题 “如 有 果 有 万 ， 则 C”。 说 C 是 从 万 演绎 出 来 的 。 形 如 
“如 果 且 ， 则 C” 的 一 个 示范 定理 会 解释 这 些 要 点 。 


定理 1.3 如 果 x 二 4， 则 2* 宇 它 。 口 


非 形 式 化 地 说 明定 理 1.3 为 真 ， 这 是 不 难 的 ， 但 形式 化 证 明 要 求 用 归纳 法 ， 将 其 留 给 例 1.17。 
首先 注意 ， 前 提 H 是 “x 二 4”。 这 个 前 提 有 参数 x， 因 此 前 提 既 不 为 真 也 不 为 假 。 实 际 上 ， 前 提 的 
正确 性 依赖 于 参数 xz 的 值 ， 例 如 ， 瑟 对 于 x = 6 为 真 ， 对 于 x = 2 为 假 。 

同样 ， 结 论 C 是 “于 > 巡 。 这 个 命题 也 用 参数 zx， 对 于 特定 的 x 值 为 真 ， 对 于 其 他 值 为 假 。 例 
如 ，C 对 于 x = 3 为 假 ， 因 为 2= 8， 不 大 于 3= 9。 男 外 ，C 对 于 x = 4 为 真 ， 因 为 2= 4= 16。 对 于 
x=5， 命 题 也 为 真 ， 因 为 ”= 32， 不 小 于 5?= 25。 

读者 也 许 看 出 这 个 直观 论证 ， 这 个 论证 表明 : 只 要 x>4， 结 论 闻 > 她 就 为 真 。 我 们 已 经 看 到 ， 
对 x = 4， 结 论 为 真 。 当 x 描 长 到 大 于 4 时 ， 每 次 x 描 加 1， 左 边 的 关 就 翻 一 倍 。 但 右边 的 姑 按 照 比值 


(于 ) 来 增长 。 如 果 r>4， 则 G + DA 不 可 能 大 于 125， 因此 (一) 不 可 能 大 于 1.5625。 由 于 


15625 <2， 每 次 x 增长 到 大 于 4， 左 边 的 2 就 比 右边 的 叉 增 长 得 多 。 因 此 ， 只 要 从 类 似 x = 4 这 样 的 值 
开始 (这 个 值 已 经 满足 不 等 式 2 二 必 )， 就 可 以 i 上 x 任意 增长 ， 仍 然 满 足 这 个 不 等 式 。 
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现在 完成 了 定理 1.3 非 形式 化 但 精确 的 证 明 。 在 介绍 “归纳 ”证 明之 后 ， 例 1.17 还 要 回 到 这 
个 证 明 使 之 更 加 精确 。 

定理 1.3 与 所 有 相关 的 定理 一 样 ， 涉 及 无 穷 多 个 相关 事实 ， 在 这 个 例子 中 是 命题 ， 对 所 有 整 
数 x， 如 果 x*>4， 则 2 关 > 屏 "。 事 实 上 ， 不 需要 假设 xz 是 整数 ， 但 这 个 证 明 表 明 ， 从 x = 4 开始 ， 反 
复 让 x 增加 1， 所 以 实际 上 只 讨论 了 x 是 整数 的 情况 。 

用 定理 1.3 来 帮助 推导 其 他 定理 。 下 一 个 例子 考虑 一 个 简单 定理 的 完整 演绎 证 明 ， 证 明 用 到 
定理 1.3。 


定理 1.4 如 果 x 是 4 个 正 整数 的 平方 和 ， 则 2*>x2。 

证 明 证 明 的 直观 想法 是 ， 如 果 前 提 对 x 为 真 ， 即 x 是 4 个 正 整数 的 平方 和 ， 则 x 必定 至 少 是 4。 
因此 ， 定 理 1.3 的 前 提成 立 ， 由 于 相信 定理 1.3， 就 可 以 说 定理 1.3 的 结论 也 对 x 为 真 . 这 个 推理 可 
表示 成 一 个 步骤 序列 。 每 个 步骤 要 么 是 所 要 证 明定 理 的 前 提 或 一 部 分 前 提 ， 要 么 是 从 一 个 或 多 
个 前 面 的 命题 得 出 的 命题 。 

得 出 ”的 意思 是 ， 如 果 某 个 定理 的 前 提 是 前 面 的 命题 ， 则 这 个 定理 的 结论 为 真 ， 就 可 以 写 
下 来 作为 证 明 中 的 一 个 命题 。 这 条 逻辑 规则 通常 称 为 假 言 推理 ， 即 如 有 果 知 道 万 为 真 ， 并 且 知 道 
如 果 且 ， 则 C” 为 真 ， 就 可 以 得 出 结论 C 为 真 。 也 元 许 用 某 些 其 他 逻辑 步骤 来 从 一 个 或 多 个 前 面 
的 命题 来 产生 命题 。 例如， 如 果 4 和 B 是 两 个 前 面 的 命题 ， 则 可 以 推出 并 写 下 命题 “A 且 B”。 

图 1-3 显 示 证 明定 理 1.4 所 需要 的 命题 序列 。 一 般 不 用 这 种 风格 的 形式 来 证 明定 理 ， 但 这 样 做 
有 助 于 认识 到 证 明 是 非常 明确 的 命题 列表 ， 每 个 命题 都 有 精确 的 理由 。 在 步 又 (1) 中 ， 重 复 了 定 
理 的 一 个 已 知 命题 : x 是 4 个 整数 的 平方 和 ，。 如 末 在 证 明 中 给 所 提 到 的 未 命名 的 量 命名 ， 这 常常 
征 有 帮助 的 ， 在 这 里 已 经 这 样 做 了 ， 给 4 个 整数 合 名 为 c,p, c 和 d。 


命 题 理由 
大 = Q2 十 D2 上 +Cc2+ 吧 
4>1;p>1lic>l:d>1 
a’>1; P21;c>1;d>1 (2) 和 算术 性 质 


XxX 宇 4 (1)、(3) 和 算术 性 质 
2 (4) 和 定理 1.3 





图 1-3 定理 1.4 的 形式 化 证 明 


在 步骤 (2) 中 ， 写 下 了 定理 前 提 的 其 余部 分 : 每 个 被 平方 的 值 至 少 是 1。 从 技术 上 说 ， 这 个 命 
题 表 示 4 个 不 同 的 命题 ， 每 个 命题 对 应 于 所 涉及 的 4 个 整数 之 一 . 然后 ， 在 步骤 (3) 中 注意 到 ， 如 
采 茶 个 数 至 少 是 1， 则 这 个 数 的 平方 也 至 少 是 1 用 命题 (2) 成 立 的 事实 和 “算术 性 质 ” 作 为 理由 。 
也 就 是 说 ， 假定 读者 知道 或 能 证 明 一 些 关 于 不 等 式 如 何 工 作 的 简单 命题 ， 比如 命题 “如 果 y>1， 
则 y2 宇 1”。 

步骤 (4) 用 到 命题 (0) 和 (3)。 命 题 (1) 说 ， x 是 所 讨论 的 4 个 平方 之 和 ， 命 题 (3) 说 ; 每 个 平方 至 
少 是 1。 再 用 众所周知 的 算术 性 质 ， 就 得 出 :x 至 少 是 1+1+1+1， 即 4。 

在 最 后 的 步骤 (5) 中 ， 用 到 命题 (4)， 即 定理 1.3 的 前 提 。 定理 1.3 本 身 就 是 写 下 其 结论 的 理由 ， 
因为 其 前 提 是 前 面 的 命题 。 由 于 作为 定理 1.3 结 论 的 命题 (5) 也 是 定理 1.4 的 结论 ， 现在 就 证 明了 定 
理 1.4。 就 是 说 ， 已 经 从 这 个 定理 的 前 提 开 始 ， 设法 演绎 出 了 这 个 定理 的 结论 。 口 


6 锣 7 草 


1.2.2 求助 于 定义 


在 前 面 两 个 定理 中 ， 前 提 中 用 到 的 都 应 当 是 熟悉 的 术语 ， 例 如 ， 整 数 、 加 法 和 乘法 。 在 许 
多 其 他 定理 中 ， 包 括 自动 机 理论 的 许多 定理 ， 在 命题 中 用 到 的 术语 可 能 具有 不 明显 的 含义 。 一 
种 在 许多 证 明 中 推动 证 明 的 有 用 方法 是 ， 


"如 采 不 能 肯定 如 何 开始 证 明 ， 就 把 前 提 中 的 所 有 术语 都 换 成 这 些 术语 的 定义 。 


下 面 是 一 个 定理 的 例子 ,一旦 把 这 个 定理 的 命题 用 初等 术语 表达 出 来 ， 这 个 定理 证 明 起 来 
就 是 简单 的 。 这 个 定理 用 到 下 面 两 个 定义 ， 

1. 一 个 集合 3 是 有 穷 的 ， 如 果 存 在 一 个 整数 上 ， 使 得 8 恰 有 m 个 元 素 。 写 成 18I = n， 其 中 用 I1S1 

表示 和 集合 S 中 元 素 的 个 数 。 如 果 和 集合 5 不 是 有 穷 的 ， 就 称 5 是 无 穷 的 。 直 观 上 ， 无 穷 集 合 是 
包含 了 比 任意 整数 都 要 多 的 元 素 的 集合 。 

2. 如 末 S 和 了 都 是 某 个 集合 U 的 子 集 , 则 当 SUT= U 有 SNT= 儿 时, 7 是 5 的 (关于 U 的 ) 补 集 。 
就 是 说 ,，U 的 每 个 元 素 恰 好 是 在 S 和 7T 其 中 的 一 个 中 ， 换 旬 话 说 ，7 恰 好 包含 那些 不 在 5 中 
的 UU 的 元 素 。 


定理 1.5 设 5 是 某 个 无 穷 集 合 U 的 有 穷 子 集 。 设 7 是 5 关于 U 的 补 集 。 则 7 是 无 穷 的 。 
证 明 ”直观 上 ， 这 个 定理 说 ， 如 果 有 某 种 东西 的 无 穷 供应 (U) ， 取 走 了 有 穷 多 个 【中 ， 则 
仍然 还 剩 下 无 穷 多 个 。 首 先 重 新 叙述 这 个 定理 的 事实 ， 如 图 1.4 所 示 ， 


| 原始 命题 | 新 的 命题 
5 是 有 穷 的 存在 整数 n+， 使 得 Sll =n 
U 是 无 穷 的 不 存在 整数 P， 使 得 IONI =p 


图 1-4 重新 叙述 定理 1.5 的 已 知事 实 


现在 仍然 束手无策 ， 所 以 要 用 一 种 称 为 “ 反 证 法 ”的 常用 证 明 技 术 。 在 1.3.3 节 要 进一步 讨 
论 的 这 种 证 明 方 法 中 ， 假 设 结论 是 假 的 。 然 后 用 这 个 假设 和 部 分 前 提 来 证 明 前 提 中 一 个 已 知 命 
题 的 否定 命题 。 于 是 就 证 明了 不 可 能 让 前 提 中 所 有 部 分 都 为 真 ， 同 时 让 结论 为 假 。 剩 下 来 的 惟 
一 可 能 性 是 ， 每 当前 提 为 真 时 ， 结 论 就 为 真 。 就 是 说 ， 定 理 为 真 。 

在 定理 1.5 的 情况 下 ， 结 论 的 否定 是 “7 是 有 穷 的 "。 假 设 7 是 有 穷 的 ， 并 且 前 提 中 说 9 是 有 穷 
的 命题 ， 即 对 于 某 个 整数 "来 说 SI = ”。 同 样 ， 把 7 是 有 穷 的 假设 重新 叙述 成 ， 对 于 某 个 整数 mr 来 
说 II711= 六。 

现在 已 知 命题 之 一 说 SUT = U 且 SNT = 纪 。 这 意味 着 ， 忆 的 元 素 恰 好 是 S 和 7 的 元 素 .， 因 此 ， 
U 必 定 包含 m + n 个 元 素 。 由 于 m + 1 是 整数 ， 已 经 证 明了 IN = m 4+ n， 就 得 出 了 U 是 有 穷 的 。 更 
维 确 地 说 ， 证 明了 U 的 元 素 个 数 是 某 个 整数 ， 这 是 “有 穷 ”的 定义 。 但 U 是 有 穷 的 这 个 命题 与 U0 
是 无 穷 的 已 知 命题 是 矛盾 的 。 因 此 用 结论 的 否定 命题 证 明了 与 已 知 命题 之 一 的 矛盾 ， 根 据 “ 反 
证 法 ”原理 ， 可 以 得 出 这 个 定理 为 真 。 口 










自动 机 : 萎 法 与 体验 多 
证 明 没 有 必要 如 此 参 琐 。 既 然 看 到 了 这 个 证 明 背 后 的 想法 ， 就 用 几 行 字 来 重新 证 明 这 个 定理 。 [9 ] 


市 量词 的 命题 


许多 定理 都 涉及 使 用 量词 “所 有 ”和 “存在 ”的 命题 ， 或 者 类 似 的 变形 ， 比 如 “每 个 ” 
代替 “所 有 ”。 这 些 量词 出 现 的 顺序 影响 命题 的 含义 。 把 带 多 个 量词 的 命题 看 作 两 个 选手 
(“所 有 ”与 “存在 ”) 之 间 的 “游戏 ”， 这 两 个 选手 轮流 指定 定理 中 提 到 的 参数 的 值 ， 这 样 
做 常常 是 有 帮助 的 。“ 所 有 ”必须 考虑 所 有 可 能 的 选择 ， 所 以 “所 有 ”的 选择 通常 保留 为 
变量 。 但 是 ,“ 存 在 ”只 需要 选择 一 个 值 ， 这 个 值 可 能 依赖 于 选手 们 以 前 所 选择 的 值 。 量 
词 在 命题 中 出 现 的 顺序 决定 谁 先 选择 。 如 果 最 后 一 个 选择 的 选手 总 是 能 够 找到 某 个 允许 值 ， 
则 这 个 命题 为 真 。 

例如 ， 考 虑 “无 穷 集合 ”的 另 一 种 定义 : 集合 5 是 无 穷 的 ， 当 且 仅 当 对 所 有 整数 n 来 说 ， 
存在 8 的 一 个 子 集 7 恰好 具有 mn 个 元 素 。 这 里 ,“ 所 有 ”是 在 “存在 ”前 面 ， 所 以 必须 考虑 一 
个 任意 整数 z。 现 在 ,“ 存 在 ”需要 选择 一 个 子 集 7， 可 以 使 用 关于 xz 的 知识 来 这 样 做 。 例 如 ， 
如 果 S 是 整数 集合 ,“ 存 在 ”就 可 以 选择 子 集 7 = {1, 2,…,n}， 因 此 无 论 n 是 什么 都 获得 胜利 。 
这 就 是 整数 集合 是 无 穷 的 一 个 证 明 。 

下 面 的 命题 看 起 来 像 “ 无 穷 ”的 定义 ， 但 这 个 命题 是 不 正确 的 ， 因 为 它 颠倒 了 量词 的 
顺序 :“ 存 在 集合 8 的 一 个 子 集 7， 使 得 对 于 所 有 "来 说 ， 集 合 7 恰 有 mw 个 元 素 "。 现 在 ， 给 
集合 $5， 比如 整数 集合 。 选 手 “ 存 在 ”可 以 选择 任何 集合 T7， 如 选择 了 {1, 2, 5}。 对 于 这 个 
选择 ， 选 手 “ 所 有 ”必须 证 明 : 对 于 每 个 可 能 的 n 来 说 ,7 都 有 n 个 元 素 。 但是,“ 所 有 ”不 
可 能 这 样 做 。 例 如 ， 对 于 n = 4 来 说 就 做 不 到 ， 事 实 上 对 于 任何 n 尖 3 来 说 都 做 不 到 





证 明 (定理 1.5) ”已 知 5UT = V 且 $ 与 7 不 相交 ， 所 以 IsSI+ IInI = ID。 由 于 8 是 有 穷 的 ， 对 于 
某 个 整数 x 来 说 SI = ma 由 于 U 是 无 穷 的 ， 不 存在 整数 p 使 得 ID = p。 所 以 假设 7 是 有 穷 的 ， 也 就 
是 说 ， 对 于 某 个 整数 m 来 说 IITl| = mm 。 ION = IST + NT = n+ m, 这 与 不 存在 整数 p 等 于 IIUll 的 已 知 
命题 相 矛 盾 。 


1.2.3 其 他 定理 形式 


定理 的 “如 果 - 则 ”形式 在 典型 的 数学 领域 中 是 最 常见 的 。 但 是 ， 我 们 也 看 到 把 其 他 形式 的 
命题 当 作 定理 来 证 明 。 本 节 检查 命题 的 最 常见 形式 以 及 通常 要 如 何 来 证 明 这 些 命题. Er 
1.2.3.1 说 “如 果 一 则 ”的 方式 
首先 ， 有 许多 类 型 的 定理 命题 看 起 来 与 简单 的 “如 果 万 ， 则 C” 形 式 是 不 同 的 ， 但 实际 上 说 
的 是 同样 的 东西 ， 如 果 前 提 及 对 给 定 的 参数 值 为 真 ， 则 结论 C 对 同样 的 值 为 真 。 下 面 是 “如 果 HH， 
则 C” 可 能 在 其 中 出 现 的 某 些 其 他 形式 : 
1.6 列 涵 C。 
过 .1 人 仅 2 人 CC。 
,0H 


4. 只 要 为 真 ， 就 得 出 C。 
还 可 以 看 到 形式 (4) 有 许多 变种 ， 比 如 “如 果 玉 成 立 ， 则 得 出 C”， 或 者 “只 要 肌 成 并 ，C 就 


Wi 


例 1.6 定理 1 ee a 
1.X 宇 4 纺 涵 2* 宇 广 。 
2.x 之 4 仅 当 2* 宕 允 。 
3 
4. 只 要 x 宇 4， 就 得 出 2* 宇 允 。 加 
而 且 ， 在 形式 逻辑 中 常常 看 到 ， 用 运算 一 来 代替 “如 果 一 则 ”。 也 就 是 说 ， 在 某 些 数学 文献 
命题 “如 果 且 ， 则 C” 可 能 出 现 为 8 一 C， 本 书 不 采用 这 种 方法 。 
1.2.3.2 当 且 仅 当 命题 
有 时 候 发 现形 如 “A 当 且 仅 当 B” 的 命题 。 这 种 命题 的 其 他 形式 是 :“A i 坦 B” 2 、“4 等 价 于 了 " 
或 “A 恰好 当 B”。 这 种 命题 实际 上 是 两 个 “如 果 一 则 ”命题 “如果 A， 则 B” 和 “如 果 B， 则 A”。 
要 证 明 “A 当 上 且 仅 当 B”， 可 以 证 明 这 样 两 个 命题 : 

1. 当 部 分 :“ 如 果 B， 则 A”， 以 及 

2. 仅 当 部 分 ;:“ 如 果 A;， 则 B”， 这 个 命题 常常 叙述 成 等 价 形式 “A 仅 当 B”。 
可 以 按照 任意 次 序 来 给 出 这 些 证 明 。 在 许多 定理 中 ， 一 部 分 肯定 比 另 一 部 分 容易 ， 习 惯 上 先 给 
出 容易 的 那个 方向 ， 在 证 明 过 程 中 不 再 考虑 这 个 方向 。 

在 形式 逻辑 中 可 能 看 到 ， 运 算 <> 或 = 表示 “ 当 且 仅 当 ”命题 。 也 就 是 说 ，A=B 和 A<>B 与 “A 
当 且 仅 当 B” 意 思 一 样 8 


ES 


证 明 要 多 么 形式 化 ? 


这 个 问题 并 不 容易 回答 。 证 明 的 底线 在 于 ， 证 明 的 目标 是 说 服 别人 (无论 是 给 读者 批 
改作 业 的 人 还 是 读者 自己 ) 相信 在 证 明代 码 中 所 使 用 的 策略 的 正确 性 。 如 果 它 是 有 说 服 力 
的 ， 那 就 足够 了 ， 如 有 果 不 能 说 服 证 明 的 “听众 "”， 那 这 个 证 明 就 省 略 得 太 多 了 。 

证 明 的 不 肯定 性 一 部 分 来 源 于 听众 所 具有 的 不 同 知识 。 因 此 ， 在 定理 1.4 中 假设 读者 懂 
得 全 部 算术 ， 能 够 相信 像 “ 如 果 y> 1， 则 关 >1” 这 样 的 命题 。 如 果 读 者 不 熟悉 算术 ， 作 者 


就 需要 在 演绎 证 明 中 用 一 些 步 又 来 证 明 这 些 命题 。 

但 是 ， 证 明 中 有 些 东西 是 必须 的 ， 省 略 这 些 东 西 肯 定 让 证 明 变 得 不 恰当 。 例 如 ， 对 于 
不 以 已 知 命题 或 前 面 命题 为 其 根据 的 命题 ， 任 何 使 用 了 这 种 命题 的 演绎 证 明 都 是 不 恰当 的 。 
当 进 行 ” 当 且 仪 当 ”命题 的 证 明 时 ， 必 须 保证 对 于 “ 当 ” 部 分 有 一 个 证 明 ， 对 于 “ 仅 当 ” 
部 分 有 田 一 个 证 明 。 另 一 个 例子 是 ， 归 纳 证 明 (1.4 节 讨论 ) 要 求 基础 部 分 的 证 明 ， 以 及 归 
纳 部 分 的 证 明 。 





当 证 明 ” 当 且 仅 当 ”命题 时 ， 重 要 的 是 记 住 “ 当 ” 和 “ 仅 当 ”部 分 都 必须 证 明 。 有 时 候 会 


日 “ 当 且 仅 当 ”的 缩写 这 不 是 一 个 单词 ， 为 了 行文 简捷 ， 在 某 些 数学 专著 中 采用 这 个 缩写 。 


发 现 ， 把 “ 当 且 仅 当 ”分 解 成 一 系列 儿 个 等 价 式 ;也 是 有 帮助 的 。 就 是 说 ， 要 证 明 “A 当 且 仅 当 
3 ， 可 能 先 证 明 “4 当 且 仅 当 C”， 再 证 明 “C 当 且 仅 当 B 。 只 要 记 住 每 个 当 且 仅 当 步 又 都 必须 证 
明 两 个 方向 ， 这 个 方法 就 奏效 。 在 任何 一 步 只 证 明 一 个 方 癌 都 使 整个 证 明 无 效 。 

下 面 是 一 个 简单 的 “ 当 且 仅 当 ”证 明 的 例子 。 它 用 到 的 记号 如 下 : 

1.1x]， 实 数 x 的 下 取 整 ， 即 小 于 或 等 于 x 的 最 大 整数 。 

2.1x1， 实 数 x 的 上 取 整 ， 即 大 于 或 等 于 x 的 最 小 整数 。 


定理 1.7 设 x 是 实数 ， 则 [xj= | x | 当 且 仅 当 x 是 整数 。 

证 明  ( 仅 当 部 分 ) 在 这 部 分 中 ， 假 设 Lxj= |x1， 试 图 证 明 x 是 整数 。 利 用 下 取 整 和 上 取 整 
的 定义 ， 注 意 到 | x ]<x 和 [x1>x。 但 是 ， 已 知 | x ]=[x1。 因 此 ， 在 第 一 个 不 等 式 中 用 下 取 整 代 
替 上 取 整 就 得 出 | xsx。 由 于 [zl<x 和 [xz1>x 都 成 立 ， 根 据 算术 不 等 式 的 性 质 就 得 出 [x ] = x。 
由 于 |x] 总 是 整数 ， 在 这 种 情况 下 x 也 必定 是 整数 。 

( 当 部 分 ) 现在 ,假设 + 是 整数 ， 试 图 证 明 | x ]=[x1。 这 部 分 是 容易 的 。 根 据 下 取 整 和 上 取 
整 的 定义 ， 当 x 是 整数 时 ，| xj] 和 [x1] 都 等 于 ， 因 此 彼此 相等 。 加 


1.2.4 表面 上 不 是 “如 果 一 则 ”命题 的 定理 
有 时 候 ， 会 遇 到 表面 上 没有 前 提 的 定理 。 一 个 例子 是 三 角 学 中 众所周知 的 事实 。 
定理 1.8 sin20 + cos20= 1 。 绚 


实际 上 ， 这 个 命题 的 确 有 前 提 ， 该 前 提包 含 了 为 解释 这 个 命题 所 需要 知道 的 所 有 命题 。 特 
别 是 ， 隐 妃 的 假设 是 :0 是 一 个 角 ， 因 此 正弦 和 余 强 函数 具有 对 于 角度 的 通常 含义 。 从 这 些 术语 
的 定义 以 及 勾 股 定理 〈 直 角 三 角形 中 ， 斜 边 的 平方 等 于 另外 两 边 的 平方 和 ) ， 就 能 证 明 这 个 定理 。 
本 质 上 ， 这 个 定理 的 “如 果 - 则 ”形式 其 实 是 :“ 如 果 6 是 一 个 角 ， 则 sin2g + cos20= 1?。 


1.3 其 他 的 证 明 形 式 


本 市 讨论 另外 几 个 关于 如 何 构 造 证 明 的 主题 : 
1. 关于 集合 的 证 明 。 

2. 反 证 法 。 

3. 反 例证 法 。 


1.3.1 证 明 集合 等 价 性 


在 目 动机 理论 中 ， 经 常 要 证 明定 理 说 ， 用 两 种 不 同方 法 构造 的 集合 是 相同 的 集合 。 通 常 ， 
这 些 集 合 都 是 字符 串 集 合 ， 把 这 些 集合 称 为 “语言 "， 但 在 本 节 ， 集 合 的 属性 并 不 重要 。 如 果 E 
和 FF 是 两 个 表示 集合 的 表达 式 ， 命 题 E = F 就 意味 着 所 表示 的 集合 是 相同 的 。 更 准确 地 说 ，E 所 表 
未 的 集合 中 每 个 元 素 都 属于 F 所 表示 的 集合 ，F 所 表示 的 集合 中 每 个 元 素 也 都 属于 E 所 表示 的 集 


合 。 


例 1.9 并 运算 的 交换 律 说 明 ， 可 用 任意 顺序 取 两 个 集合 R 和 5 的 并 ， 即 RUS = SUR。 在 这 种 


10 着 了 音 





情形 下 ，E 是 表达 式 RUS，F 是 表达 式 SUR。 并 运算 交换 律 说 明 E =F。 口 


可 以 把 集合 等 式 E = F 写 成 一 个 当 且 仅 当 命题 :元素 * 属 于 E， 当 且 仅 当 x 属 于 F。 结 果 就 是 ， 
对 于 断言 两 个 集合 相等 的 命题 £ = F， 看 到 了 这 种 命题 的 证 明 轮廓 ， 这 种 证 明 遵循 了 任何 当 且 仅 
当 证 明 的 形式 : 

1. 证 明 : 如 雪 x 属 于 E， 则 x 属于 F。 

2. 证明; 如 采 x 属 于 ， 则 x 属于 E。 

作为 这 种 证 明 过 程 的 一 个 例子 ， 来 证 明 并 对 交 的 分 配 律 。 


定理 1.10 RUCm7) = (RUSmCRU7)。 

证 明 所 涉及 的 两 个 集合 表达 式 是 E = RU(SNT) 和 F = (RUS)mGRU7)。 依 次 证 明定 理 的 两 个 
部 分 。 在 “ 当 ” 部 分 ,假设 元 素 x 属于 E， 证 明 x 属 于 。 这 部 分 总 结 在 图 1-5 中 ， 用 到 了 交 和 并 的 
定义 ， 假 设 读者 熟悉 这 些 定义 。 


命 题 理 由 
x 属于 RU(SM7T) 前 提 
x 属于 R 或 x 属于 SNT (1) 以 及 并 的 定义 
x 属于 R 或 x 同时 属于 S 和 T (2) 以 及 交 的 定义 


x 属于 RUS (3) 以 及 并 的 定义 
x 属于 RUT (3) 以 及 并 的 定义 
x 属于 (RUS)MN(RUT) (4)、(5) 以 及 交 的 定义 





图 1-5 定理 1.10“ 当 ”部 分 中 的 步骤 
从 后 ， 要 证 明定 理 的 “ 仅 当 ”部 分 。 在 这 里 ， 假 设 x 属 于 斑 ， 证 明 x 属 于 已。 这些 步骤 总 结 在 
图 1-6 中 。 由 于 现在 已 经 证 明了 当 且 仅 当 命题 的 两 个 部 分 ， 所 以 证 明了 并 对 交 的 分 配 律 。 口 
命 题 理 由 


x 属于 (RUS)N(RU7T) 前 提 
x 属于 RUS (1) 以 及 交 的 定义 
x 属于 RUT ( 以 及 交 的 定义 


x 属于 R 或 x 同时 属于 S 和 T (2)、(3) 以 及 关于 并 的 推理 
x 属于 R 或 x 属于 SNMT (4) 以 及 交 的 定义 
x 属于 RU(SMD) 中 (5) 以 及 并 的 定义 





图 1-6 定理 1.10“ 仅 当 ” 部 分 的 步骤 
1.3.2 逆 否 命题 


每 一 个 “如 果 - 则 ”命题 都 有 一 种 等 价 形式 ， 在 某 些 情况 下 等 价 形式 更 容易 证 明 。“ 如 果 玖 ， 
则 C ”命题 的 送 否 命题 是 “如 果 非 C， 则 非 H”。 一 个 命题 与 其 逆 否 命题 是 同时 为 真 或 同时 为 假 的 ， 
故 可 证 明 其 中 一 个 来 证 明 另 一 个 。 


为 了 看 出 为 什么 “如 果 五 ， 则 C” 与 “如 果 非 C， 则 非 8” 是 逻辑 等 价 的 ， 首 先 ， 要 考虑 四 
种 情况 : 

1. 有 和 C 都 为 真 。 

2. 万 为 真 、C 为 假 。 

3. C 为 真 、 五 为 假 。 

4. 且 和 C 都 为 假 。 
只 有 一 种 方式 使 “如 果 一 则 ”命题 为 假 ， 即 在 情形 (2) 中 ， 前 提 为 真 、 结 论 为 假 。 对 于 其 他 三 种 
情形 ， 包 括 对 于 结论 为 假 的 情形 (4), “如 果 一 则 ”命题 本 身 都 为 真 。 

现在 考虑 对 于 哪些 情形 ， 逆 否 命题 “如 果 非 C， 则 非 且 ”为 假 。 要 使 这 个 命题 为 假 ， 前 提 
非 C 必须 为 真 ， 结 论 “ 非 瓦 ”必须 为 假 。 但 是 恰好 C 为 假 时 ,“ 非 C” 为 真 ;， 恰 好 五 为 假 时 ， 
非 瑟 ”为 真 。 这 两 个 条 件 又 都 是 情形 (2)。 这 说 明 ， 在 四 种 情形 的 每 一 种 当中 ， 原 命题 与 其 逆 否 TA 
命题 同时 为 真 或 同时 为 假 ， 即 二 者 是 逻辑 等 价 的 。 


对 集合 说 “ 当 且 仅 当 ” 


前 面 说 过 ， 陈 述 集 合 表达 式 等 价 性 的 定理 都 是 当 且 仅 当 命题 。 因 此 ， 定 理 1.10 可 以 叙 
述 为 : 元 素 x 属 于 RU(SNT)， 当 且 仅 当 x 属 于 (RUS)N(RU7T)。 

必 一 种 稼 用 的 集合 等 价 性 表达 式 使 用 措辞 “所 有 并 且 只 有 ”。 例 如 ， 定 理 1.10 也 可 以 氢 
述 为 : RU(SM7) 的 元 素 是 所 有 并 且 只 有 属于 (RUSN(RU7T) 的 元 素 。 


逆 命题 
不 要 混淆 术语 “ 逆 否 命题 ”与 “ 逆 命 题 "。“ 如 果 一 则 ”命题 的 送 命题 是 “ 另 一 个 方 
同 ”， 就 是 说 , “如 果 及 ， 则 C” 的 逆 命 题 是 “如 果 C， 则 H”。 不 是 像 逆 否 命题 那样 与 原 命 
题 等 价 ， 逆 命题 与 原 命题 不 等 价 。 实 际 上 ， 当 且 仅 当 证 明 的 两 个 部 分 总 是 某 个 命题 及 其 逆 
命题 。 





例 1.11 回忆 一 下 定理 1.3， 其 命题 是 “如 果 x>4， 则 2 二 x2”。 这 个 命题 的 逆 否 命题 是 “如 
采 非 好 > 巡 ， 则 非 z>>4”。 利 用 “ 非 ae>p” 与 “a <b” 相 同 这 个 事实 ， 用 更 顺畅 的 话 来 表述 ， 这 
个 道 否 命题 就 是 “如 果 2z< 妇 ， 则 xz*<4?。 加 


当 要 求证 明 一 条 当 且 仅 当 定 理 时 ， 在 一 个 部 分 使 用 逆 否 命题 ， 这 人 允许 有 几 种 选择 。 例 如 ， 
假设 要 证 明 等 价 性 E = F。 不 去 证 明 “ 如 果 x 属 于 E， 则 x 属于 F” 和 “如 果 x 属 于 ， 则 x 属于 E”， 
还 可 以 把 一 个 方向 写成 逆 否 命题 。 一 种 等 价 证 明 形式 是 : 


* 如果 x 属于 E， 则 x 属于 ， 如 果 x 不 属于 E， 则 x 不 属于 FF。 
在 上 述 命 题 中 ， 也 可 以 交换 E 和 IF。 
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1.3.3 反 证 法 
另 一 种 证 明 形 如 “如 果 肪 ， 则 C” 命 题 的 方法 古 证 明 命 题 
。 “号 与 非 C 导 致 巴 盾 。 


也 就 是 说 ， 从 同时 假设 前 提 忌 和 结论 C 的 否定 开始 。 通 过 证 明 从 互 和 非 C 逻 辑 地 得 出 已 知 为 假 的 
东西 ， 来 完成 证 明 。 这 个 证 明 形 式 称 为 反 证 法 。 


例 1.12 回忆 一 下 定理 1.5， 那 里 证 明了 带 有 前 提 A 的 “如 果 一 则 ”命题 五 =“U 是 无 穷 集 ， 
5 是 U 的 有 穷 子 集 ，7 是 S 关 于 U 的 补 集 *。 结 论 C 是 “7 是 无 穷 的 "。 下 面 用 反 证 法 来 证 明 这 个 定理 。 
假设 “ 非 C”， 即 假设 T 是 有 穷 的 。 

这 个 证 明 就 是 从 五 和 非 C 导 出 错误 。 首 先 从 “S 和 7 都 是 有 穷 的 ”这 个 假设 来 证 明 U 也 一 定 是 
有 穷 的 。 但 由 于 在 前 提 如 中 说 U 是 无 穷 的 ， 一 个 集合 不 能 同时 是 有 穷 的 和 无 穷 的 ， 所 以 已 经 证 明 
了 这 个 逻辑 命题 “ 假 。 用 逻辑 术语 来 说 ， 既 有 命题 (U 是 有 穷 的 )， 又 有 其 否定 命题 ,“ 非 p” 
\U 是 无 穷 的 )。 然 后 利用 “Z 与 非 p” 在 逻辑 上 等 价 于 “ 假 ” 这 个 事实 。 口 


要 证 明 为 什么 反 证 法 在 逻辑 上 是 正确 的 ， 回 忆 一 下 1.3.2 节 ， 互 和 C 的 真 值 有 四 种 组 合 。 只 
有 第 二 种 情形 (8 真 、C 假 )， 让 命题 “如 果 且 ， 则 C” 为 假 。 通 过 证 明 如 和 非 C 导 臻 错误， 就 证 
明了 情形 2 不 可 能 发 生 。 因 此 ， 仅 有 的 如 和 C 的 真 值 组 合 ， 就 是 让 “如 果 豆 ， 则 C” 为 真 的 三 种 
组 合 。 


1.3.4 反例 


在 实际 生活 中 ， 不 会 有 人 告诉 我 们 去 证 明 一 条 定理 。 倒 不 如 说 ， 面 对 着 似乎 为 真 的 东西 ， 
比如 实现 一 个 程序 的 策略 ， 需 要 判断 这 个 “定理 ”是 否 为 真 。 为 了 解决 这 个 问题 ， 可 以 轮流 地 
试图 去 证 明 这 个 定理 ， 如 有 果 证 明 不 出 ， 就 试图 去 证 明 这 个 命题 是 假 的 。 

定理 一 般 都 是 关于 无 穷 多 种 情形 (可 能 是 参数 的 所 有 值 ) 的 命题 。 的 确 ， 严 格 的 数学 约定 
只 把 有 无 穷 多 种 情形 的 命题 才 尊称 为 “定理 ”， 而 把 没有 参数 或 者 只 有 有 穷 多 种 参数 值 的 命题 
称 为 ”事实 。 为 了 证 明 一 个 所 谓 的 定理 不 是 定理 ， 只 要 证 明 在 任何 一 种 情形 之 下 为 假 ， 这 就 足 
够 了 。 这 种 情况 类 似 于 程序 ， 因 为 如 果 一 个 程序 甚至 只 在 一 个 预期 正常 工作 的 输入 上 不 能 正确 
运行 ， 则 一 般 认 为 这 个 程序 是 有 错误 的 。 

证 明 一 个 命题 不 是 定理 ， 要 比 证 明 这 个 命题 是 定理 容易 一 些 。 前 面 说 过 ， 如 果 5 是 任意 命题 ， 
则 “S 不 是 定理 ”本 身 就 是 无 参数 的 命题 ， 因 此 可 看 作 事实 而 非 定理 。 下 面 是 两 个 例子 ， 第 一 个 
是 明显 的 非 定理 ， 第 二 个 是 还 不 能 断定 为 定理 的 命题 ， 在 解决 其 是 否定 理 的 问题 之 前 ， 需 要 一 


些 研 究 。 


所 谓 的 定理 1.13 所 有 素数 都 是 奇数 。( 更 形式 化 地 说 : 如 果 x 是 素数 ， 则 x 是 奇数 。) 
否 证 整数 2 是 素数 ， 但 2 是 偶数 。 口 


现在 ， 讨 论 涉及 模 算 术 的 一 个 “定理 ”*”。 有 一 个 重要 的 定义 必须 首先 给 出 。 如 果 a 和 4b 都 是 正 


整数 ， 则 a mod 2 就 是 a 除 以 的 余数 ， 也 就 是 说 ， 对 于 某 个 整数 9， 使 得 a = qb + 7 在 0 与 5 一 1 之 间 
的 惟一 整数 r。 例 如 ，8 mod 3 =2，9 mod 3 = 0。 先 提出 来 再 确定 为 假 的 这 个 “定理 ”是 : 


所 谓 的 定理 1.14 不 存在 整数 对 a 和 b， 使 得 a mod b =b mod a。 口 


当 和 需要 处 理 成 双 的 对 象 时 ， 比 如 这 里 的 a 和 b5， 利 用 对 称 性 常常 有 可 能 化 简 对 象 之 间 的 关系 。 
在 这 种 情形 下 ， 把 注意 力 集中 到 a < b 的 情形 上 ， 因 为 如 果 b < a， 则 交换 a 和 b， 就 得 到 与 所 谓 的 
定理 1.14 相 同 的 等 式 。 但 必须 小 心 ， 不 要 忘记 第 三 种 情形 a = b。 这 个 情形 在 证 明 的 尝试 中 竟然 
是 关键 的 。 

假设 a<b。 于 是 a mod b = a， 因 为 在 a mod 8 的 定义 中 ， 让 dg = 0 和 r =a。 也 就 是 说 ， 当 a <b 时 ， 
a=0xb+a。 但 是 b mod a < a， 因 为 任何 数 mod a 都 是 在 0 和 a 一 1 之 间 。 因 此 ， 当 a<b 时 , b mod a 
<a mod bp， 所 以 a mod b = b mod a 是 不 可 能 的 。 利 用 上 面 的 对 称 性 论证 可 知 ， 当 b < a 时 , a 
mod bb mod a, 

但 考虑 第 三 种 情形 : a = b。 由 于 对 于 任意 璇 数 x-:， 有 x mod x = 0， 所 以 的 确 有 : 如 果 a = b， 
则 a mod b=b mod a。 因 此 就 推翻 了 所 谓 的 定理 : 


否 证 《所 谓 的 定理 1.14) 设 a =b=2。 则 a modb=bmoda=0。 口 


在 寻找 反例 的 过 程 中 ， 实 际 上 已 经 发 现 了 准确 的 条 件 ， 在 这 些 条件 下 ， 这 个 所 谓 的 定理 成 
并 。 下 面 是 定理 的 正确 版 本 及 其 证 明 。 


定理 1.15 a modb=bmoda， 当 且 仅 当 a =b。， 

证 明 〈 当 部 分 ) 假设 a = 。 于 是 注意 到 上 面 ， 对 于 任意 整数 rz， 有 x mod x = 0。 因 此 ， 只 要 
4a=pDp， 就 有 amodp=pmoda=0.。 

( 仅 当 部 分 ) 现在 假设 a mod b = b mod a。 最 好 的 证 明 是 反 证 法 ， 所 以 另外 假设 结论 的 否 
定 ; 也 就 是 说 ,假设 a 二 b。 由 于 排除 了 a = 5b， 因 此 只 需 考 虑 a < b 和 b < a 的 情况 。 

前 面 已 经 注意 到 ， 当 a < b 时 ， 有 a mod b= a 且 mod a < a。 因 此 ， 这 些 命 题 加 上 前 提 a mod 
b=b mod a 就 导出 了 也 盾 。 

根据 对 称 性 ， 如 果 b < a， 则 b mod a= p 且 a mod b <b。 再 次 导出 了 与 前 提 之 间 的 矛盾 ， 得 出 
了 仅 当 部 分 也 为 真 。 现 在 已 经 证 明了 两 个 方向 ， 就 得 出 了 这 个 定理 为 真 . 加 


1.4 归纳 证 明 


有 一 种 特殊 形式 的 证 明 ， 称 为 “归纳 证 明 ”， 当 处 理 递归 定义 的 对 象 时 ， 它 是 必 不 可 少 的 。 许 
多 最 熟悉 的 归纳 证 明 都 处 理 整数 ， 但 在 自动 机 理论 中 ， 也 需要 归纳 证 明 处 理 递 归 定 义 的 概念 ， 比 
如 树 和 各 种 类 型 的 表达 式 ， 后 者 比如 1.1.2 节 中 简单 提 到 的 正则 表达 式 。 本 节 首 先 用 整数 上 的 “ 简 
单 ” 归 纳 法 来 介绍 归纳 证 明 的 主题 ， 然 后 说 明 如 何在 任何 递归 定义 的 概念 上 施行 “结构 ”归纳 法 ， 


1.4.1 整数 上 的 归纳 法 
假设 要 证 明 给 定 的 关于 一 个 整数 n 的 命题 S(n)。 一 种 常用 的 方法 是 证 明 两 件 事 : 
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1. 基础 : 对 一 个 具体 的 整数 i:， 证 明 S(i)。 通 常 i= 0 或 ;= 1， 但 有 些 例子 中 ， 要 从 某 个 更 大 的 ; 

开始 ， 也 许 因为 对 于 一 些小 整数 ，5 为 假 。 

2. 归 纳 步 又 假设 n 二 i， 其 中 证 基础 整数 ， 证 明 “ 如 果 S(n)， 则 S(n + 1) 。 

直观 上 说 ， 这 两 部 分 应 当 使 人 信服 : 对 所 有 大 于 或 等 于 基础 整数 i 的 整数 ，S(n) 都 为 真 。 可 
以 论证 如 下 。 假 设 对 一 个 或 多 个 这 种 整数 ，S(n) 为 假 。 于 是 应 当 有 一 个 n 的 最 小 值 ， 例 好 ， 对 于 j， 
S$(j) 为 假 ， 但 j 宇 i。 现 在 j 不 可 能 是 i， 因 为 在 基础 部 分 证 明了 5() 为 真 。 因 此 j 一 定 大 于 i。 现在 知 
道 j 一 1>i, 并 且 S(j 一 1) 为 真 。 

但 在 归纳 部 分 证 明了 ， 如 果 n 宇 i， 则 S(n) 强 涵 S(n + 1)。 假 设 让 nz = 7 一 1。 于 是 从 归纳 步骤 知 
道 ，S(j 一 1) 强 涵 S(j)。 由 于 也 知道 $(j 一 1)， 所 以 得 出 S(j)。 

假设 了 要 证 明 的 内 容 的 否定 ， 也 就 是 说 ,假设 了 对 某 个 ji，S(j ) 为 假 。 在 每 种 情况 下 ， 都 
导出 了 了 矛盾， 所 以 就 有 了 一 个 “ 反 证 法 证 明 ”: 对 所 有 n 宇 i，S(n) 都 为 真 的 。 

不 夷 的 是 ， 在 上 述 推 理 中 有 微妙 的 逻辑 错误 。 可 以 选 出 最 小 的 ji， 对 于 ，5S(j) 为 假 ， 这 个 
假设 依赖 于 对 最 基本 的 归纳 法 原理 的 信任 。 也 就 是 说 ， 证 明 可 以 找到 这 样 一 个 /的 惟一 方法 是 用 
本 质 上 是 归纳 证 明 的 方法 去 证 明 。 但 上 面 讨论 的 “证 明 ” 有 很 好 的 直观 意义 ， 与 人 们 对 真实 世 
界 的 理解 相 一 致 。 因 此 ， 在 一 般 情况 下 ， 把 下 列 原 理 作 为 逻辑 推理 系统 的 组 成 部 分 : 


。 归 纳 法 原理 : 如 果 证 明了 S(i)， 并且 证 明了 对 所 有 n 宇 i，S(n) 强 涵 S(n + 1)， 就 可 得 出 : 对 所 
有 nn 之 i，S(n) 成 立 。 


下 面 两 个 例子 说 明 用 归纳 法 原理 来 证 明 关 于 整数 的 定理 。 


定理 1.16 对 所 有 n 宕 0， 
六 -2 
0 
证 明 证 明 分 两 个 部 分 : 基础 和 归纳 步 又， 依次 证 明 每 个 步骤 。 
基础 : 对 于 基础 ， 选 择 n = 0。 对 于 =0， 这 个 定理 也 有 意义 ， 这 似乎 令 人 惊讶 ， 因 为 当 n =0 
时 ， 式 (1-1) 的 左 方 是 》，。 但 有 一 个 一 般 原理 : 当 求 和 的 上 限 (在 这 个 情形 下 是 0) 小 于 下 限 
(这 里 是 1) 时 ， 和 中 没有 任何 一 项 ， 因 此 和 为 0。 即 ， y,,P= 0。 
式 (1-1) 的 右边 也 是 0， 因 为 0x(0+ Dx(2x0+1)16=0。 因 此 ， 当 m=0 时 ， 式 (1-1) 为 真 。 
归纳 : 现在 假设 z>0。 要 证 明 归 纳 步 又 ， 即 式 (1-1) 列 涵 了 把 mx 换 成 z + 1 的 相同 公式 。 后 一 个 
公式 是 : 


(I=1) 


Se [n+1]([n+1] oe +1]+1) (1.2) 

把 式 (1-1) 和 式 (1-2) 右 边 的 和 与 积 展开 来 进行 化 简 。 这 些 等 式 成 为 : 
Be 9 (1.3) 
3 =(2n’ +91 +13n+6)/6 (1-4) 


要 用 式 (1-3) 来 证 明 式 (1-4)， 因 为 在 归纳 法 原理 中 ， 这 些 等 式 分 别 是 命题 S(n) 和 S(n + 1)。“ 技 巧 ” 
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是 : 把 式 (1-4) 左 边 到 n + 1 的 和 分 解 为 到 nn 项 的 和 加 上 第 n + 1 项 。 通 过 这 种 方法 ， 把 到 nn 的 和 换 成 
式 (1-3) 的 左边 并 证 明 式 (1-4) 为 真 。 这 些 步骤 如 下 : 


(38 +(n+1) =(2n +91 +13n+6)/6 (1-5) 
(2n’ +3n: +n)/6+(n’ +2n+1)= (2n’: +9n: +13n+6)/6 (1-6) 
最 后 验证 式 (1-6) 为 真 只 需要 在 左边 用 简单 的 多 项 式 代 数 ， 就 证 明 左 方 与 右 方 相等 。 口 


例 1.17 ， 下 一 个 例子 证 明 1.2.1 节 中 的 定理 1.3。 回 忆 一 下 ， 这 个 定理 说 : 如 果 x 之 4， 则 2*>z2。 
当 x 描 大 到 4 以 上 时 ，z22 的 比值 缩小 ， 基 于 这 种 想法 给 出 过 一 个 非 形式 化 的 证 明 。 如 果 从 基础 x = 
4 开始 ， 用 x* 上 的 归纳 法 来 证 明 命 题 关 > 阅 ， 就 可 把 这 个 想法 精确 地 表达 出 来 。 注 意 ， 对 于 x < 4， 
这 个 命题 实际 上 为 假 。 

基础 : 如 果 x =4， 则 2* 和 x 都 是 16。 因 此 ，2* 宇 台 成 立 。 

归纳 : 假设 对 于 某 个 x 二 4，2* 宇 *。 以 这 个 命题 作为 前 提 ， 需 要 证 明 用 x + 1 代替 x 的 相同 命 
题 ， 也 就 是 说 ，2F+0>[ + 1]?。 这 些 就 是 归纳 法 原理 中 的 命题 S(x) 和 S(x + 1)， 用 x 而 不 用 n 作 为 
参数 ， 这 不 应 当 引 起 疑问 ， x 或 n 只 是 一 个 局 部 变量 。 

像 在 定理 1.16 中 那样 ， 应 当 改 写 S(x + 1)， 以 便利 用 S(x)。 在 这 个 例子 中 ， 把 2F+ 1 写成 2 x 2x。 
由 于 S90) 说 2 所 以 得 出 2+1= 2 x 2 二 2x2, 

但 是 需要 不 同 的 东西 ， 需 要 证 明 2*+1>(C+ 1)。 证 明 这 个 命题 的 一 种 方法 是 证 明 2x2>(x + 1》， 
然后 用 宕 的 传递 性 来 证 明 2*+1 二 2x? 二 (x + 1)2。 在 


2x* 宇 (XxX+ 1) (1-7) 
的 证 明 中 ， 可 利用 x*>4 的 假设 。 首 先 化 简 式 (1-7): 
Xx 宕 2x++ 1 (1-8) 
把 式 (1-8) 除 以 x， 得 到 : 
wt (1-9) 


x 
由 于 x*>4， 所 以 知道 1xz 和 1/4。 因 此 ， 式 (1-9) 的 左边 至 少 是 4， 右 边 至 多 是 2.25。 因 此 证 明了 
去 (1-9) 的 真实 性 。 因 此 ， 式 (1-8) 和 式 (1-7) 也 为 真 。 式 (1-7) 依 次 给 出 : 对 于 x>4，2z2>(r + 1)?， 并 
允许 证 明 命题 SC + 1)， 回 忆 一 下 ， 这 就 是 2*+1>>(Cx+ 1D?。 口 


整数 作为 递归 定义 的 概念 


前 面 说 过 ， 当 讨论 对 象 被 递归 定义 的 时 候 ， 归 纳 证 明 是 有 用 的 。 但 是 第 一 个 例子 是 整 
数 上 的 归纳 法 ， 通 常 不 认为 整数 是 “递归 定义 的 ”。 然 而 ， 当 一 个 数 是 非 负 整数 时 ， 就 有 


一 个 自然 的 递归 定义 ， 而 且 这 个 定义 的 确 与 整数 上 的 归纳 法 的 进行 方式 相 匹配 : 从 先 定义 
的 对 象 到 后 定义 的 对 象 。 

基础 : 0 是 整数 。 

归纳 :如果 n 是 整数 ， 则 n+ 1 也 是 整数 。 





Jo 


1.4.2 更 一 般 形式 的 整数 归纳 法 


1.4.1 市 提出 : 对 一 个 基础 值 ， 证 明 命题 S$， 然后 证 明 “如 末 S(n)， 则 S(n + 1) 。 有 时 候 ， 只 
有 利用 比 这 个 模式 更 一 般 的 模式 ， 才 能 让 一 个 归纳 证 明成 为 可 能 。 这 个 模式 的 两 种 重要 推广 是 : 
1. 利用 多 个 基础 情形 。 也 就 是 说 ， 对 某 个 j > i， 证 明 S@2), SCGi+ 1),…,S(j)。 
2. 在 证 明 S(n + 11) 时， 利用 所 有 命题 
SSG 二 SO) 


的 真实 性 ， 而 不 只 利用 S(n) 的 。 而 且 ， 如 果 证 明了 直到 S(j ) 的 基础 情形 ， 就 假设 n 宇 j， 而 
不 只 假设 n 宇 i。 
由 这 个 基础 和 归纳 步骤 得 到 的 结论 是 : 对 所 有 nn 宇 i，S(n) 为 真 。 


例 1.18 ”下面 的 例子 说 明 这 两 个 原理 的 潜力 。 要 证 明 的 命题 S$(n) 是 : 如 果 m>8， 则 zz 可 写成 3 
与 5 之 和 。 注 意 ， 顺 便 说 一 下 ，7 不 能 写成 3 与 5 之 和 。 
基础 : 基础 情形 是 S(8)、S(9) 和 S(10)。 证 明 分 别 是 : 8=3+5, 9=3+3+3, 10=5+5。 
归纳 : 假设 n 二 10 并 且 S(8), 5S(9),…,S(n) 都 为 真 。 要 从 这 些 已 知事 实 来 证 明 S(n + 1)。 策 略 是 ， 从 
n+ 1 减 3， 注 意 这 个 数 一 定 能 写成 3 与 之 和 ， 然 后 在 这 个 和 中 再 加 入 一 个 3， 来 得 到 写 n+ 1 的 方法 。 
更 形式 化 地 说 ,注意 n 一 28， 所 以 可 假设 S(n 一 2)。 也 就 是 说 ， 对 于 某 个 整数 a 和 b，n 一 2 = 
3a+5b。 于 是 n+1=3+3a+5b， 所 以 n+ 1 可 写成 a+ 1 个 3 与 bp 个 5 之 和 。 这 证 明了 S(n+1)， 并 完 
成 了 归纳 步骤 。 口 


1.4.3 结构 归纳 法 


在 目 动机 理论 中 有 许多 递归 定义 的 结构 ， 需 要 证 明 关 于 这 些 结构 的 命题 。 熟 悉 的 树 和 表达 
式 的 概念 都 是 重要 的 例子 。 像 归纳 法 一 样 ， 所 有 的 递归 定义 都 有 基础 情形 和 归纳 步 又， 基础 情 
形 定义 一 个 或 多 个 基本 结构 ， 归 纳 步骤 用 前 面 定义 的 结构 来 定义 更 复杂 的 结构 。 


例 1.19 下 面 是 树 的 递归 定义 : 


基础 : 单个 顶点 是 树 ， 这 个 顶点 是 树 的 根 。 (a) 
归纳 : 设 T, 7;,…, Ti 都 是 树 ， 则 可 以 构造 一 棵 新 树 如 下 
所 示 : 
1. 从 新 顶点 N 开 始 ，N 是 树 的 根 。 a ， 
2. 添 加 所 有 树 的 也 ,7 , …, 玫 的 副本 。 
3. 添加 从 顶点 N 到 每 棵 树 九 , 7, …, Ti 的 根 的 边 。 图 1-7 一 棵 树 的 归纳 构造 
图 1-7 显 示 了 从 k 牛 较 小 的 树 到 一 棵 带 有 根 N 的 树 的 归纳 构造 。 - 


例 1.20 下 面 是 另 一 个 递归 定义 。 这 次 用 算术 运算 + 和 * 来 定义 表达 式 ， 同 时 允许 数 和 变量 来 
作为 运算 数 。 

基础 ， 任 意 数 或 字母 ( 即 变量 ) 都 是 表达 式 。 

归纳 :如 果 E 和 是 表达 式 ， 则 E + F、ExF 和 ( 思 也 是 表达 式 。 

例如 ， 根 据 基础 ，2 和 x 都 是 表达 式 。 归 纳 步骤 说 z + 2、(x + 2) 和 2x(x + 2) 都 是 表达 式 。 注 意 
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每 个 表达 式 是 如 何 依赖 于 前 面 的 表达 式 的 。 口 


结构 归纳 法 背后 的 直观 


可 以 非 形式 化 地 提示 一 下 ， 为 什么 结构 归纳 法 是 有 效 的 证 明 方法 。 想 像 一 下 ， 递 归 定 
义 逐 个 地 证 明 : 一 些 结构 X!, X,,… 都 满足 这 个 定义 。 首 先是 基础 元 素 ， 然 后 是 X 属于 所 定 
义 的 结构 集合 这 个 事实 ， 它 只 依赖 于 在 表 中 总 之 前 的 那些 结构 在 所 定义 集合 中 的 成 员 性 。 


从 这 个 角度 来 看 ， 结 构 归纳 法 只 不 过 是 命题 S(X,) 在 整数 + 上 的 归纳 法 。 这 种 归纳 法 可 以 具 
有 14.2 市 讨论 过 的 推广 形式 ， 带 有 多 种 基础 情形 和 一 个 利用 前 面 所 有 命题 实例 的 归纳 步 又 ，。 
但 应 当 记 住 ， 如 在 1.4.1 节 所 解释 的 那样 ， 这 种 直观 不 是 形式 化 的 证 明 ， 事 实 上 ， 与 假设 了 
本 市 中 原 归纳 法 原理 的 有 效 性 一 样 ， 必 须 假设 这 个 归纳 法 原理 的 有 效 性 。 





当 有 了 递归 定义 时 ， 就 可 用 下 列 证 明 形式 ( 称 为 结构 归纳 法 ) 来 证 明 关于 这 个 定义 的 定理 。 
设 5CO 是 关于 结构 X 的 命题 ，X 是 用 某 个 具体 的 递归 定义 来 定义 的 。 
1. 作为 基础 ， 对 基础 结构 X， 证 明 S(X)。 
?. 对 于 归纳 步骤 ， 用 递归 定义 说 明 从 Yi, Y2, …, Xi 形成 的 结构 X。 假 设 命题 S(Y), S(Y,), …， 
S(YD 成 立 ， 用 这 些 来 证 明 S(X)。 
结论 是 : 对 所 有 X，S(X) 都 为 真 。 下 面 两 条 定理 是 可 以 证 明 关于 树 和 表达 式 的 事实 的 例子 。 


定理 1.21 每 棵 树 都 是 顶点 数 比 边 数 多 一 。 
证 明 要 用 结构 归纳 法 证 明 的 形式 化 命题 S(T) 是 :“ 如 果 7 是 树 ， 目 T 有 n 个 顶点 和 e 条 边 ， 则 
n=e+1”, 
基础 : 基础 情形 是 当 7 是 单个 顶点 时 。 于 是 = 1 且 e =0， 所 以 关系 n=e + 1 成 立 。 
归纳 : 设 T 是 根据 定义 的 归纳 步骤 从 根 顶 点 N 和 k 个 较 小 的 树 T, 五: 人 构造 出 的 树 。 可 以 
假设 对 于 i= 1,2,…,k， 命 题 S(T;) 都 成 立 。 也 就 是 说 ， 设 TI 有 个 顶点 和 ei; 条 边 ， 则 ni;= ei+ 1。 
7 的 顶点 是 顶点 N 和 所 有 T; 的 顶点 。 因 此 T 中 有 1 + m+ m+…+4 个 顶点 。7 的 边 是 归纳 定义 
步骤 中 明确 添加 的 k 条 边 ， 加 上 7; 的 边 。 因 此 ，T 有 
上 十 El 十 ez 十 … 十 Er (1-10) 
条 边 。 如 果 在 7 的 顶点 计数 中 把 mi 换 成 z+ 1， 则 发 现 7 有 
1 +[et+1]+ [e+ 1]+-…:+ [ex+ 1] (1-11) 
个 顶点。 由 于 式 (1-11) 中 有 k 个 “+1” 项 ， 可 以 把 式 (1-11) 重 新 分 组 为 
KK 二 1+el+e2 十 … 十 er (1-12) 


这 个 表达 式 恰 好 比 给 出 作为 7 的 边 数 的 式 (1-10) 的 表达 式 多 1。 因 此 ， 7 的 顶点 比 边 多 一 个 。 口 


定理 1.22 每 个 表达 式 都 有 相等 数目 的 左右 括号 。 

证 明 形式 化 地 ， 按 例 1.20 的 递归 来 定义 的 任意 表达 式 G， 证 明 关 于 C 的 命题 SG): G 中 左右 
括号 数目 相等 。 

基础 : 如 果 G 是 基础 定义 的 ， 则 G 是 数 或 变量 。 这 些 表达 式 都 有 0 个 左 括号 和 0 个 右 括号 ， 所 


OB 


以 左右 括号 数目 相等 。 

归纳 : 根据 定义 中 的 归纳 步骤 ， 可 有 三 条 规则 把 G 构 造 出 来 ， 

l.G=E+F., 

2 t= Ew 

3.G0=(B), 

假设 S(E&) 和 S(f) 都 为 真 ， 也 就 是 说 ，E 有 相同 数目 的 左右 插 号 ， 比 方 说 各 有 n 个 ，F 同 样 有 相 
同 数 目的 左右 括 写 ， 比 方 说 各 有 mn 个。 于 是 分 别 对 这 三 种 情形 ， 计 算 G 中 左右 括号 数 : 

1. 如 采 G =E+， 则 G 有 n +m 个 左 括号 和 n + m 个 右 括 号 ;各自 有 n 个 来 自 E，m 个 来 自 F。 

2. 如 采 G = ExF， 则 G 的 左右 插 号 数 各 自 还 是 n+m， 理 由 与 情形 (1) 相 同 。 

3. 如 有 果 G = (E)， 则 G 中 有 n + 1 个 左 括号 ， 已 经 明确 显示 了 一 个 左 括号 ， 其 他 n 个 都 在 E 中 。 

同样 ，G 中 有 n+ 1 个 右 括号 ， 一 个 是 明确 的 ， 其 他 n 个 都 在 E 中 。 

在 这 三 种 情形 的 每 种 情形 下 都 看 到 ，GC 中 左右 括号 数 是 相同 的 。 这 个 事实 就 完成 了 归纳 步 又， 

也 完成 了 证 明 。 口 


1.4.4 互 归纳 法 


有 时 候 ， 不 能 用 归纳 法 证 明 单个 的 命题 ， 倒 不 如 说 ， 用 n 上 的 归纳 法 来 同时 证 明 一 组 命题 
S51(n), S2(m), …, Sk (n)。 目 动机 理论 出 现 许多 这 种 情况 。 例 1.23 举 了 一 种 常见 情况 的 例子 ， 对 每 个 
状态 都 有 一 个 命题 ， 通 过 证 明 这 组 命题 来 解释 自动 机 做 什么 。 这 些 命题 说 明 ， 在 什么 样 的 输入 
序列 下 ， 自 动机 进入 这 个 状态 。 

严格 地 说 ， 证 明 一 组 命题 ， 与 证 明 所 有 命题 的 合 取 (逻辑 与 ，AND) 是 没有 区 别 的 。 例 如 ， 
可 以 把 一 组 命题 $1(n), $2(n), …, Si (n) 换 成 单个 命题 ，S1(n) AND Ss(n) AND…AND Si(n)。 但 当 实际 
要 证 明 几 个 独立 的 命题 时 ， 保 持 命题 的 独立 与 在 各 自 的 基础 和 归纳 步骤 部 分 中 证 明 人 命题， 通常 
较 少 引起 混 靖 。 称 这 种 证 明 为 互 归 纳 法 。 一 个 例子 会 说 明 互 递归 的 必要 步骤 。 


例 1.23 重新 考虑 一 下 两 相 开 关 ， 例 1.1 中 把 这 个 开关 表示 成 自动 机 。 把 这 个 自动 机 本 身 复 
制 如 图 1-8 所 示 。 由 于 按 下 按钮 就 在 状态 on ( 开 ) 和 off ( 关 ) 之 间 切 换 ， 而 且 从 状态 off 开 始 切换 ， 
所 以 预期 下 面 的 命题 一 起 解释 了 这 个 开关 的 运行 : 

$1(n): 在 按 了 n 次 之 后 自动 机 处 在 off 状 态 ， 当 且 仅 当 n 是 偶数 。 

$2(n): 在 按 了 n 次 之 后 自动 机 处 在 on 状态 ， 当 且 仅 当 n 是 奇数 。 

可 能 假设 : 51 强 涵 $,， 反 之 亦 然 ， 因 为 数 n 不 可 能 同时 为 奇数 和 偶数 。 但 自动 机 处 在 一 个 状 
态 并 且 只 处 在 一 个 状态 ， 这 并 不 总 为 真 。 图 1-8 的 自动 机 碰巧 一 直 Push 


处 在 恰好 一 个 状态 中 ， 但 这 个 事实 必须 作为 互 归纳 法 的 一 部 分 来 、 ， 
进行 证 明 。 ® © 


下 面 给 出 命题 $1(n) 和 52(n) 的 证 明 的 基础 和 归纳 部 分 。 这 些 证 明 


依赖 于 关于 奇数 和 偶数 的 几 个 事实 : 如 果 从 偶数 加 减 1， 就 得 到 奇 Su 
数 ， 如 果 从 奇数 加 减 1， 就 得 到 偶数 。 图 1-8 重复 图 1-1 的 自动 机 


基础 : 对 于 基础 ， 选 择 n = 0。 由 于 有 两 个 命题 ， 必 须 在 两 个 方向 证 明 每 个 命题 (因为 S$. 和 5， 
各 日 都 是 “ 当 且 仅 当 ”命题 )， 实 际 上 有 四 种 基础 情形 ， 也 有 四 种 归纳 情形 。 


1.[%;， 当 ] 由 于 0 是 偶数 ， 就 必须 证 明 : 在 按 了 0 次 之 后 ， 图 1-8 的 自动 机 处 在 off 状 态 。 由 于 
off 状 态 是 初始 状态 ， 在 按 了 0 次 之 后 ， 自 动机 的 确 是 在 off 状 态 。 

2.[S1; 仅 当 ] 由 于 按 了 0 次 之 后 ， 自 动机 处 在 off 状 态 ， 所 以 必须 证 明 0 是 偶数 。 但 根据 “ 偶 
数 ”的 定义 ，0 是 偶数 ， 所 以 没有 什么 要 证 明 的 了 。 

3. [%;， 当 ] % 的 “ 当 ”部 分 的 前 提 是 : 0 是 奇数 。 由 于 这 个 前 提 瑟 是 假 的 ， 如 在 1.3.2 节 讨论 过 
的 那样 ， 任 何 形 如 “如 果 石 ， 则 C” 的 命题 都 为 真 。 因 此 ， 基 础 的 这 个 部 分 也 成 立 。 

4.[S2; 仅 当 ] 在 按 了 0 次 之 后 ， 自 动机 处 在 on 状态 ， 这 个 前 提 也 是 假 的 ， 因 为 到 达 状 态 on 的 
惟一 方式 是 遵循 一 条 带 Push 标 记 的 箭头 ， 这 要 求 至 少 按 一 次 按钮 。 由 于 这 个 前 提 为 假 ， 
所 以 又 得 出 这 个 “如 果 一 则 ”命题 为 真 。 

归纳 : 现在 假设 Si(n) 和 52(n) 都 为 真 ， 并 尝试 证 明 Si(n + 1) 和 S52(n + 1)。 同 样 ， 证 明 分 成 四 个 

部 分 。 

1. [Si(n + 1);， 当 ] 这 部 分 的 前 提 是 : ”+ 1 是 偶数 。 因 此 ，n 是 奇数 。 命 题 $2(n) 的 “ 当 ” 部 分 
说 : 按 了 n 次 之 后 ， 自 动机 处 在 on 状态 。 从 on 到 off 带 Push 标 记 的 箭头 说 明 ， 第 n + 1 次 按 动 
会 导致 自动 机 进入 状态 off。 这 就 完成 了 Sa + D 的 “ 当 ” 部 分 的 证 明 。 

2. [Sin+ 1); 仅 当 ] 前 提 是 : 按 了 n+ 1 次 之 后 ， 自 动机 处 在 off 状 态 。 由 于 n+ 1 >0， 检 查 图 1-8 
的 目 动机 就 说 明 ， 到 达 状 态 off 的 惟一 可 能 方式 是 ， 处 在 状态 on 中 并 收 到 输入 Push。( 另 外 一 
种 可 能 方式 是 ， 由 于 off 伏 态 是 初始 状态 ， 如 果 # + 1 = 0， 则 在 按 了 n+ 1 = 0 次 之 后 ， 自 动机 
在 off 状 态 中 。 现 在 由 于 n + 1 > 0， 所 以 排除 了 这 种 方式 .) 因此 ， 如 果 在 按 了 n + 1 次 之 后 ， 
处 在 状态 off 中 ， 则 在 按 了 n 次 之 后 ， 一 定 处 在 状态 on 中 。 于 是 ， 用 命题 $2(n) 的 “ 仅 当 ”部 
分 来 得 出 n 是 奇数 。 因 此 ，n+ 1 是 偶数 ， 这 就 是 Si(n + 1) 的 仅 当 部 分 所 要 的 结论 。 

3.[S2(n + 1); 当 ] 这 部 分 本 质 上 与 第 (1) 部 分 相同 ， 把 命题 $1 和 S52 的 角色 互 换 ,把 “ 奇 ”和 
偶 的 角色 互 换 。 读 者 应 当 能 够 很 容易 地 构造 出 这 部 分 证 明 。 

4. [Sz(n + 1); 仅 当 ] 这 部 分 本 质 上 与 第 (2) 部 分 相同 ， 把 命题 $4 和 $5; 的 角色 互 换 ， 把 “ 奇 ”和 
“ 偶 ” 的 角色 互 换 。 口 


从 例 1.23 中 抽象 出 所 有 的 互 归纳 法 的 模式 : 
。 在 基础 和 归纳 步骤 中 ， 必 须 分 别 证 明 每 个 命题 。 
* 如 采 命 题 是 “ 当 且 仅 当 ”， 则 在 基础 和 归纳 中 ， 必 须 证明 每 个 命题 的 两 个 方向 。 


1.5 目 动机 理论 的 中 心 概念 


本 市 介绍 贯穿 自动 机 理论 的 术语 的 最 重要 的 定义 。 这 些 概 念 包括 “ 字 母 表 ” (符号 集合 )、 
串 ” (字母 表 中 符号 的 列 ) 和 “语言 ”( 相 同 字母 表 中 串 的 集合 ) 。 


1.5.1 字母 表 


字母 表 是 符号 的 有 穷 非 空 集 合 。 约 定 俗 成 ， 用 符号 表示 字母 表 。 常 见 字 母 表 包括 : 
1. ={0,1}， 二进制 字母 表 。 

2: ={a,b,…,z}， 所 有 小 写字 母 的 集合 。 

3. 所 有 ASCII 字 符 的 集合 ， 或 者 所 有 可 打印 的 ASCII 字 符 的 集合 。 


0 ws 


1.5.2 种 


囊 (有 了 时候 称 为 单词 ) 是 从 某 个 字母 表 中 选择 的 符号 的 有 穷 序 列 。 例 如 ，01101 是 从 二 进 制 
字母 表 = {0, 1} 中 选 出 的 串 ， 串 111 是 从 这 个 字母 表 中 选择 的 另 一 个 串 。 

1 2 怀 束 

空 串 是 出 现 0 次 符号 的 串 。 这 个 串 记 作 s， 是 可 从 任何 字母 表 中 选择 的 串 。 

1.5.2.2 串 的 长 度 

根据 串 的 长 度 ( 即 串 中 符号 的 位 数 ) 来 对 串 进 行 分 类 ， 这 常常 是 有 用 的 。 例 如 ，01101 长 度 
为 5。 通 常 说 ， 串 的 长 度 就 是 这 个 串 中 的 “符号 数 ”;， 口头 上 可 接受 这 个 命题 ， 但 严格 地 说 这 是 
不 对 的 。 因 此 ， 在 串 01101 中 ， 只 有 两 个 符号 0 和 1， 但 有 5 个 符号 位 ， 所 以 其 长 度 为 5。 但 是 ， 当 
想 说 “位 数 ” 时 ， 一 般 就 会 想 使 用 “符号 数 ”。 

串 w 的 长 度 的 标准 记号 是 lwl。 例 如 ,1011l= 3,，lal = 0。 

1.5.2.3 字母 表 的 需 

如 果 王 是 一 个 字母 表 ， 就 可 用 指数 记号 来 表示 这 个 字母 表 某 个 长 度 的 所 有 串 的 集合 。 定 
义 2 是 长 度 为 的 串 的 集合 ， 串 的 每 个 符号 都 属于 区。 

例 1.24 注意 无 论 2 是 什么 字母 表 ， 2320= {e}。 就 是 说 ，e 是 长 度 为 0 的 惟一 的 串 。 

如 果 卫 = {0,1}, 则 21= {0, 1}，22= {00, 01, 10, 11y， 233 = {000, 001, 010, 011, 100, 101, 
110, 111}， 依 此 类 推 。 注 意 , 在 2 与 2 了! 之 间 有 细微 的 区 别 。 前 者 是 字母 表 ， 其 成 员 0 和 1 都 是 符 
号 。 后 者 是 一 些 串 的 集合 ， 其 成 员 都 是 串 0 和 1， 每 个 串 的 长 度 都 是 1。 我 们 不 打算 用 不 同 的 记号 
来 表示 这 两 个 集合 ， 根 据 上 下 文 来 区 分 {0, 1} 或 类 似 的 集合 究竟 是 字母 表 还 是 串 的 集合 。 口 


符号 与 串 的 类 型 约定 
通常 ， 用 字母 表 开头 的 小 写字 母 (或 数字 ) 来 表示 符号 ， 用 字母 表 靠 近 未 尾 的 小 写字 


母 来 表示 串 ， 典 型 的 是 w, x, > 和 z。 读 者 要 试 着 习惯 这 个 约定 ， 来 帮助 提示 出 所 讨论 的 元 素 
的 类 型 。 





字母 表 了 上 所 有 的 串 的 集合 约定 记 作 3*。 例 如 ，{0, 1}* = {, 0,1,00,01, 10, 11; 000, …)}。 

换 句 话说 ， 
p © i hE 

有 时 候 ， 和 希望 从 串 集 合 中 排除 空 串 。 把 字母 表 上 非 空 串 的 集合 记 作 +。 因 此 ， 两 个 正确 
的 等 价 性 是 : 

Drm SUS) Ess 

.eh 

1.5.2.4 串 的 连接 

设 x 和 和 y 都 是 串 。 于 是 ， 允 表示 x 和 y 的 连接 ， 就 是 说 ， 用 x 的 一 个 副本 后 面 跟着 y 的 一 个 副本 所 
形成 的 串 。 更 准确 地 说 ， 如 果 x 是 包含 ;个 符 号 的 串 x = aia2…a;，y 是 包含 j 个 符号 的 串 y = bib>…b,， 
则 xy 是 长 度 为 i+j 的 串 : xy = aia2…aibib2…b;j。 


例 1.25 设 x=01101 且 >= 110。 则 xy =01101110 昌 yx = 11001101。 对 任意 串 w， 等 式 sew = we = mw 
成 立 。 就 是 说 ，e 是 连接 的 单位 元 ， 因 为 当 与 任意 一 个 串 连 接 时 ， 都 产生 另外 这 个 操作 为 结果 
(这 类 似 于 加 法 的 单位 元 0，0 加 上 任意 数 x， 都 产生 x 作为 结果 )。 口 


1.5.3， 语 言 


> 是 某 个 具体 的 字母 表 ， 全 都 从 >* 中 选 出 的 串 的 一 个 集合 称 为 语言 。 如 果 了 是 字母 表 ， 且 
LC 3"， 则 LL 是 上 的 语言 。 注 意 ，2 上 的 语言 不 必 包 含 带 有 所 有 符号 的 串 ， 所 以 ,一旦 确定 
Z 古 2 上 的 语言 ， 也 就 知道 了 Z 是 任何 是 2 的 超 集 的 字母 表 上 的 语言 。 

选择 “语言 ， 这 个 术语 ， 这 似乎 很 奇怪 。 但 普通 的 语言 都 可 看 作 串 的 集合 。 一 个 例子 就 是 
英语 ， 合 法 英语 单词 全 体 就 是 包含 所 有 字母 的 字母 表 上 的 串 的 集合 。 另 一 个 例子 是 C 语 言 或 任何 
其 他 程序 设计 语言 ， 其 中 合法 程序 就 是 从 这 个 语言 的 字母 表 形 成 的 可 能 的 串 的 子 集 合 。 这 个 字 
母 表 是 ASCI 字 符 的 一 个 子 集 。 在 不 同 的 程序 设计 语言 之 间 ， 准 确 的 字母 表 可 能 稍 有 不 同 ， 但 通 
前 都 包括 大 小 写字 母 、 数 字 、 标 点 符号 和 数学 符号 。 

但 在 研究 自动 机 时 ， 也 有 许多 其 他 语言 。 有 些 是 抽象 的 例子 ， 比 如 : 

1. 对 某 个 2 二 0，7 个 0 后 面 跟着 个 1， 所 有 这 样 的 串 的 语言 : {e,01,0011,000111,…}。 

2.0 和 1 个 数 相等 的 串 的 集合 : {sg,01, 10,0011,0101, 1001,…}。 

3. 值 为 素数 的 二 进 制 数 的 集合 : {10, 11, 101, 111, 1011,…}。 

4. 对 任意 字母 表 沁 ,2' 是 一 个 语言 。 

5. 空 语言 是 任意 字母 表 上 的 语言 。 

6. 只 包含 空 串 的 语言 {e} 也 是 任意 字母 表 上 的 语言 。 注 意 名 关 {e}， 前 者 没有 串 ， 后 者 有 一 

个 串 ， 

关于 什么 是 语言 ， 惟 一 重要 的 约束 就 是 所 有 字母 表 都 是 有 穷 的 。 因 此 语言 可 以 有 无 穷 多 个 串 ， 
但 限制 这 些 串 为 从 一 个 固定 的 有 穷 字 母 表 取出 的 。 


1.5.4 问题 


在 目 动机 理论 中 ， 一 个 问题 就 是 判定 一 个 给 定 的 串 是 否 属于 某 个 具体 语言 的 提问 。 将 要 看 
到 ， 任 何在 口头 上 称 为 “问题 ”的 东西 ， 竟 然 都 可 以 表示 成 语言 的 成 员 性 。 更 准确 地 说 ， 如 
林 二 是 字母 表 ，Z 是 上 的 语言 ， 则 问题 就 是 : 


“给 定 荆 ' 中 的 一 个 串 w， 判 定 w 是 否 属于 Z。 


例 1.26 检验 素数 性 问题 可 表示 成 语言 L,，L, 包含 所 有 值 为 素数 的 二 进 制 串 。 就 是 说 ， 给 定 
0 和 1 的 一 个 串 ， 如 果 这 个 串 是 一 个 素数 的 二 进 制 表 示 ， 就 说 “是 ”， 否 则 ， 就 说 “ 否 ”。 对 某 些 
串 ， 这 种 判定 是 容易 的 。 例 如 ，0011101 不 是 素数 的 表示 ， 因 为 简单 的 原因 : 除 0 之 外 每 个 整数 
的 二 进 制 表示 都 以 1 开头 。 但 串 11101 是 否 属于 L,， 这 就 不 明显 了 。 这 个 问题 的 任何 解法 都 需要 
使 用 大 量 的 某 种 计算 资源 ， 例 如 时 间 和 (或) 空间 。 口 
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集合 表示 法 作为 一 种 定义 语言 的 方式 


{w1w 如 此 这 般 } 
来 描述 一 个 语言 。 这 个 表达 式 读 作 “ 单 词 w 的 集合 ,使 得 ( 竖 线 右边 关于 w 所 说 的 任何 话 )”。 
一 些 例子 是 : 
1. {w1w 包 含 相同 个 数 的 0 和 1}。 
2.{1w 1w 是 二 进 制 素数 }。 
3. {w1w 是 语法 正确 的 C 程 序 }。 
还 和 第 把 w 换 成 某 个 带 参数 的 表达 式 ， 通 过 叙述 参数 的 条 件 来 描述 语言 中 的 串 。 这 里 是 一 
些 例子 ， 第 一 个 例子 带 参 数 n*， 第 二 个 例子 带 参数 ;hj: 
1. {0"1* 1 n 宇 1}。 读 作 “0 的 i 次 方 、1 的 n 次 方 的 集合 ， 使 得 n 大 于 等 于 1”"。 这 个 语言 包 
含 串 {01, 0011, 000111…}。 注 意 ， 与 字母 表 一 样 ， 可 以 用 单个 符号 的 m 次 需 来 表示 7 
个 这 种 符号 。 
2. {0i1i10<i< 放 ， 这 个 语言 包含 一 些 0 (可 能 没有 ) 后 面 跟着 至 少 这 么 多 1 的 串 。 


“问题 ”的 定义 的 一 个 可 能 不 令 人 满意 的 方面 是 ， 人 们 常常 不 认为 问题 是 判定 问题 (以 下 是 
否 为 真 ? ) ， 而 认为 是 计算 或 变换 某 个 输入 的 请 求 ( 找 出 完成 这 个 任务 的 最 佳 方法 ) 。 例 如 ， 在 
形式 化 意义 下 ， 可 把 C 编 译 器 中 语法 分 析 器 的 任务 看 作 一 个 问题 ， 其 中 给 定 一 个 ASCIH 串 ， 要 求 
判定 这 个 串 是 否 属 于 Zec， 即 合法 C 程 序 的 集合 。 但 语法 分 析 器 要 比 判 定做 得 更 多 。 语 法 分 析 器 
产生 语法 分 析 树 、 符 号 表 中 的 项 目 ， 可 能 还 有 其 他 东西 。 更 有 甚 者 ， 整 个 编译 器 解决 了 把 C 程 
序 转化 为 某 种 机 器 的 目标 代码 的 问题 ， 这 就 远 不 是 对 程序 的 合法 性 问题 简单 地 回答 “是 ”或 
“ 否 ” 的 问题 了 。 

不 过 ， 作 为 语言 的 “问题 ”的 定义 ， 已 经 经 受 了 时 间 的 检验 ， 成 为 处 理 复杂 性 理论 重要 问 
是 的 正确 方法 ， 在 这 个 理论 中 ， 兴 趣 在 于 证 明 某 些 问 题 的 复杂 性 的 下 界 。 特 别 重要 的 是 证 明 不 

在 少 于 输入 规模 的 指数 时 间 内 解决 某 些 问题 的 技术 。 已 知 问题 的 是 / 否 或 基于 语言 的 版 本 ， 与 
Was ee We 

也 就 是 说 ， 如 果 可 以 证 明 判定 一 个 给 定 的 串 是 否 属于 语言 ix (Lx 是 程序 设计 语言 X 中 合法 的 
串 的 集合 ) 是 困难 的 ， 那 么 就 推出 了 ， 把 语言 X 的 程序 翻译 成 目标 代码 不 是 比较 容易 的 。 因 为 如 
果 容 易 产 生 代码 ， 就 可 以 运行 翻译 器 ， 得 出 恰好 当 翻 译 器 成 功 产生 目标 代码 时 ， 输 入 是 Lx 的 合 
法 成 员 。 由 于 确定 是 否 产 生 了 目标 代码 的 最 后 一 步 并 不 困难 ， 所 以 可 用 产生 目标 代码 的 快速 算 
法 来 有 效 地 判定 Lx 的 成 员 性 。 因 此 与 检验 Lx 的 成 员 性 是 困难 的 这 个 假设 相 矛 盾 。 已 经 用 反 证 法 
证 明了 命题 “如 果 检 验 Lx 的 成 员 性 是 困难 的 ， 则 程序 设计 语言 的 编译 程序 也 是 困难 的 ”。 

用 一 个 问题 的 假设 有 效 算法 来 有 效 解决 另 一 个 已 知 的 困难 问题 ， 来 证 明 这 个 问题 是 困难 的 ， 
这 种 技术 称 为 第 二 个 问题 到 第 一 个 问题 的 “ 归 约 ”。 在 问题 的 复杂 性 研究 中 ， 这 种 技术 是 必 不 可 
少 的 工具 ， 大 大 得 益 于 下 面 这 样 的 概念 : 问题 都 是 关于 语言 成 员 性 的 提问 而 不 是 更 一 般 类 型 的 
提问 。 
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是 语言 还 是 问题 ? 


语言 和 问题 其 实 是 相同 的 东西 。 倾 向 于 使 用 哪 种 术语 依赖 于 所 采取 的 观 氮 。 当 只 关心 
串 本 身 时 ， 如 在 集合 {0"1" 172> 关 二 中 ， 就 倾向 于 认为 串 的 集合 是 语言 。 在 本 书 最 后 一 草 ， 倾 
向 于 给 串 赋 予 “ 语 义 ”， 如 认为 串 编 码 了 图 、 逻 辑 表 达 式 甚至 偶数 等 。 在 这 些 情形 下 , 对 
串 所 表示 的 东西 的 关心 超过 了 对 串 本 身 的 关心 ， 就 倾向 于 认为 串 的 集合 是 问题 。 





1.6 小结 


“有 穷 自动 机 : 有 穷 目 动机 涉及 一 些 状态 和 当 响 应 输入 时 在 状态 之 间 的 转移 。 用 来 构造 许多 
不 同 种 类 的 软件 ， 例 如 包括 编译 器 的 词法 分 析 部 件 以 及 电路 与 协议 正确 性 的 验证 系统 。 

“正则 表达 式 : 这 是 描述 有 穷 目 动机 所 表示 的 相同 模式 的 结构 记号 。 用 在 许多 常见 类 型 的 软 
件 中 ， 例 如 包括 查找 文本 模式 或 文件 名 模式 的 工具 。 

。 上 下 文 无 关 文 法 : 这 和 古 描 述 程序 设计 语言 的 结构 以 及 相关 的 串 集 合 的 重要 记号 ;用 来 构造 
编译 载 的 语法 分 析 部 件 。 

。 图 灵机 : 这 是 为 真实 计算 机 的 能 力 建立 模型 的 自动 机 。 图 灵机 允许 研究 可 判定 性 ， 即 计算 
机 能 做 什么 或 不 能 做 什么 的 问题 。 也 允许 区 分 易 解 问题 ( 即 能 在 多 项 式 时 间 内 解决 的 问题 ) 
与 难 解 问 题 ( 即 不 能 在 多 项 式 时 间 内 解决 的 问题 ) 。 

* 演绎 证 明 : 这 种 基本 的 证 明 方法 ， 通 过 列 出 那些 已 知 为 真 的 命题 或 从 前 面 一 些 命题 逻辑 地 
得 出 的 命题 ， 来 进行 下 去 。 

* 证 明 “如 果 一 则 ”命题 许多 命题 都 是 形 如 “如 果 (什么 ) 则 (其 他 什么 )”。“ 如 果 ” 后 
面 的 一 个 或 多 个 命题 是 前 提 ,“ 则 ”后 面 的 命题 是 结论 。“ 如 果 一 则 ”命题 的 演绎 证 明 从 前 
提 开 始 ， 持 续 从 前 提 和 前 面 命题 逻辑 地 推出 命题 ， 直 到 证 明 出 结论 是 其 中 一 个 命题 为 止 。 

“证 明 “ 当 且 仅 当 ”命题 还 有 另外 一 些 定理 形 如 “( 什 么 ) 当 且 仅 当 (其 他 什么 )”。 通 过 
双 疝 地 证 明 “ 如 采 一 则 ”命题 来 证 明 这 些 命题 。 类 似 的 种 类 定理 断言 以 两 种 不 同方 式 描述 
集合 的 相等 性 ， 通 过 证 明 这 两 个 集合 互相 包含 来 证 明 这 些 集 合 的 相等 性 。 

* 证明 北 否 命题 : 有 时 候 ， 证 明 等 价 命题 “如 果 非 C， 则 非 H” 比 证 明 “ 如 果 及 ， 则 C” 要 更 
容易 。 前 者 称 为 后 者 的 逆 否 命题 。 

。 反 证 法 : 其 他 时 候 ， 证 明 命题 “如 果 甩 且 非 C， 则 (已 知 为 假 的 什么 )” 比 证 明 命 题 “ 如 果 
H， 则 C” 要 更 方便 。 这 种 类 型 的 证 明 称 为 反 证 法 。 

“反例 : 有 了 时候 要 求证 明 某 个 命题 不 为 真 。 如 果 这 个 命题 有 一 个 或 多 个 参数 ， 则 只 给 出 一 个 
反例 (就 是 说 ,使 命题 为 假 的 参数 赋值 ) 就 证 明 作为 一 般 性 命题 的 这 个 命题 为 假 。 
“归纳 证 明 : 第 党 可 用 整数 + 上 的 归纳 法 来 证 明 带 参数 n 的 命题 。 对 基础 (n 的 具体 值 的 有 穷 多 
种 情形 ) 证 明 命题 为 真 ， 然 后 证 明 归 纳 步 又: 如 果 命 题 对 直到 n 的 值 为 真 ， 则 命题 对 n + 1 
为 真 。 

“结构 归纳 法 : 在 茶 些 情况 下 ， 包 括 本 书 的 许多 情况 下 ， 要 归纳 证 明 的 定理 是 关于 某 个 递归 
定义 的 结构 ， 比 如 树 。 通 过 在 构造 所 使 用 的 步 数 上 归纳 ， 来 证 明 关于 所 构造 对 象 的 定理 。 
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把 这 种 类 型 的 归纳 法 称 为 结构 归纳 法 。 
“字母 表 : 字母 表 是 任何 有 穷 的 符号 集合 。 
。 串 : 串 是 有 穷 长 度 的 符号 序列 。 
“语言 和 问题 : 语言 是 一 些 串 的 集合 (可 能 无 穷 )， 所 有 这 些 串 都 从 某 一 个 字母 表 选 择 符号 。 
当 打 算 以 某 种 方式 来 解释 语言 的 串 时 ， 就 把 一 个 串 是 否 属于 这 个 语言 的 提问 称 为 问题 。 


1.7 参考 文献 
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第 2 草 ”有 穷 自动 机 


本 章 介绍 一 类 语言 ， 称 为 “正则 语言 ”。 这 些 语言 恰好 是 有 穷 自动 机 描述 的 语言 1.1.1 节 
简单 举 过 有 穷 自动 机 的 例子 。 在 用 一 个 扩充 例子 说 明了 研究 动机 之 后 ， 形 式 化 地 定义 有 穷 自 
动机 。 

前 面 说 过 ， 有 穷 自 动机 有 一 组 状态 及 其 控制 ， 响 应 外 部 “输入 ”, “控制 ”从 状态 移动 到 状 
态 。 各 类 有 穷 自 动机 之 间 的 关键 区 别 之 一 ， 在 于 控制 究竟 是 “确定 的 ”还 是 “ 非 确定 的 "”， 前 者 
意味 着 在 任何 时 刻 自 动机 不 能 处 在 一 种 以 上 状态 中 ， 后 者 意味 着 自动 机 能 同时 处 在 几 种 状态 中 。 
我 们 将 会 发 现 ， 增 加 非 确定 性 并 不 能 定义 出 任何 不 能 用 确定 型 有 穷 自动 机 来 定义 的 语言 ， 但 是 
用 非 确定 型 有 穷 自动 机 来 描述 应 用 却 具有 很 高 的 效率 。 事 实 上 ， 非 确定 性 允许 用 较 高 层 语言 
“设计 ”问题 的 解 。 然 后 用 本 章 学 习 的 算法 ， 把 非 确定 型 有 穷 自动 机 “编译 ”成 确定 型 有 穷 自动 
机 ， 在 常规 计算 机 上 “执行 ”。 

本 章 最 后 研究 扩展 的 非 确 定型 有 穷 自动 机 ， 这 种 自动 机 具有 额外 选择 ， 能 自动 从 一 种 状态 
转移 到 另 一 种 状态 ， 即 在 作为 “输入 ”的 空 串 上 转移 。 这 些 自动 机 也 只 接受 正则 语言 。 在 第 3 章 
研究 正则 表达 式 及 其 与 自动 机 的 等 价 性 时 ， 将 会 发 现 这 些 自动 机 非常 重要 。 

第 3 章 继续 研究 正则 语言 ， 这 一 章 将 描述 正则 语言 的 另 一 种 重要 方式 ， 代数 记号 ， 称 为 正 
则 表达 式 。 在 讨论 了 正则 表达 式 并 证 明了 与 有 穷 自 动机 的 等 价 性 之 后 ， 第 4 章 用 自动 机 和 正则 
表达 式 作 为 工具 ,证 明正 则 语言 的 某 些 重要 性 质 。 这 些 性 质 的 例子 是 “封闭 ”性 和 “判定 ”性 ， 
前 者 允许 根据 已 知 一 个 或 多 个 其 他 语言 是 正则 的 ， 来 断言 某 个 语言 是 正则 的 ;后 者 是 算法 ， 回 
答 关 于 自动 机 或 正则 表达 式 的 问题 ， 例 如 两 个 自动 机 或 正则 表达 式 是 否 表示 相同 的 语言 。 


2.1 有 穷 自动 机 的 非 形式 化 描述 


本 市 研究 现实 世界 问题 的 扩充 例子 ， 有 穷 自 动机 在 解决 这 些 问题 时 起 重要 作用 。 这 个 例子 
研究 支持 “电子 货币 ”的 协议 ,“ 电 子 货币 ”是 顾客 在 互联 网 上 购物 付款 的 文件 ， 商 家 能 收 到 文 
件 并 确信 “ 钱 ”是 真 的 。 商 家 必须 知道 ， 这 个 文件 不 是 伪造 的 ， 也 不 是 顾客 复制 后 发 送 给 商家 
却 保 留 副 本 准备 再 次 付款 的 。 

文件 的 不 可 伪造 性 是 银行 用 密码 政策 必须 保证 的 性 质 。 也 就 是 说 ， 第 三 方 (银行 ) 必须 发 
行 并 加 密 “ 货 币 ” 文 件 ， 使 得 不 可 能 被 伪造 。 银 行 还 有 第 二 项 重要 任务 ， 银 行 必须 维护 一 个 所 
有 已 发 行 有 效 货币 的 数据 库 ， 使 得 银行 可 以 验证 商店 收 到 的 文件 代表 真 钱 并 转 入 商店 账户 。 本 
书 不 讨论 这 个 问题 的 密码 学 方面 ， 也 不 关心 银行 如 何 存 取 数 以 亿 计 的 “电子 美 钞 ”。 这 些 问 题 似 
于 不 代表 电子 货币 概念 的 长 远 障 碍 ， 自 20 世 纪 90 年 代 以 来 ， 已 经 有 小 规模 使 用 电子 货币 的 例 
4 

为 了 使 用 电子 货币 ,需要 设计 协议 ， 允 许 按 照 用 户 希 望 的 各 种 方式 去 操纵 货币 。 由 于 货币 
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系统 总 是 诱发 伪造 ， 所 以 无 论 采 用 什么 政策 ， 都 必须 验证 如 何 使 用 货币 。 也 就 是 说 ， 需 要 证 明 
能 够 发 生 的 事情 仅仅 是 希望 发 生 的 事情 ， 即 防止 不 守 规 矩 的 用 户 从 别人 那里 偷 钱 或 “制造 钱 
这 类 事情 。 在 本 节 剩 下 的 篇 幅 中 ， 介 绍 一 个 非常 简单 的 (不 良 的 ) 电子 货币 协议 的 例子 ， 用 有 
穷 自动 机 为 协议 建立 模型 ， 并 说 明 如 何 用 自动 机 上 的 构造 来 验证 协议 (或 者 ， 在 这 个 例子 的 情 
况 下 发 现 协议 有 漏洞 ) 。 


2.1.1 基本 规则 


有 三 方 参与 : 顾客 、 商 店 和 银行 。 为 简 音 起见， 假设 只 存在 一 个 “货币 ”文件 。 顾 客 可 以 
决定 把 货币 文件 传送 给 商店 ， 商 店 然后 从 银行 兑换 货币 文件 〈 即 让 银行 发 行 属于 商店 而 不 属于 
顾客 的 新 文件 ) 并 送 货 给 顾客 。 而 且 ， 顾 客 可 以 选择 取消 文件 。 也 就 是 说 ， 顾 客 可 以 要 求 银行 
把 钱 放 回顾 客 的 账户 ， 不 再 用 这 钱 付款 。 因 此 三 方 之 间 的 交互 限于 5 种 事件 ， 

1. 顾客 决定 付款 。 也 就 是 说 ， 顾 客 把 钱 发 送 给 商店 。 

2. 顾客 决定 取消 。 把 钱 发 送 给 银行 ， 附 带 把 这 笔 钱 添加 到 顾客 的 银行 账户 的 消息 。 

3. 商 店 送 贷 给 顾客 。 

4. 商店 苑 换 货币 。 也 就 是 说 ， 把 钱 发 送 给 银行 ， 并 附带 一 个 把 这 笔 钱 给 商店 的 请 求 。 

5. 银行 将 这 笔 钱 转账 ， 方 法 是 建立 新 的 适当 加 密 的 货币 文件 并 发 送 给 商店 。 


2.1.2 协议 


三 方 必须 小 心 设计 各 自 的 行为 ， 否 则 就 会 发 生 错误 。 在 例子 中 ， 做 一 个 合理 假设 : 不 能 依 
靠 顾客 采取 负责 任 的 行动 。 特 别 是 ， 顾 客 可 能 试图 复制 货币 文件 用 来 多 次 付款 ， 或 者 付款 再 取 
消 ， 因 此 “免费 ”得 到 货物 。 

银行 必须 采取 负责 任 的 行动 ， 否 则 就 不 成 为 银行 。 特 别 是 ， 银 行 必须 保证 两 家 商店 不 会 郧 
换 同 一 个 货币 文件 ， 必 须 不 允许 既 取 消 又 交换 货币 。 商 店 也 应 当 小 心 。 特 别 是 ， 商 店 应 当 直 到 
确信 已 得 到 有 效 货款 之 后 才 送 货 。 

这 种 类 型 的 协议 可 表示 成 有 穷 目 动机 。 每 个 状态 表示 某 一 方 所 处 的 局 面 。 也 就 是 说 ， 状 态 
“ 记 住 ” 某 些 重要 事件 已 经 发 生 而 其 他 事件 还 没有 发 生 。 状 态 之 间 的 转移 发 生 在 前 面 所 描述 的 5 
种 事件 之 一 发 生 时 。 认 为 这 些 事件 在 表示 三 方 的 自动 机 的 “外 部 ”， 尽 管 每 一 方 都 负责 激发 一 个 
或 多 个 事件 。 关 于 这 个 问题 ， 重 要 的 是 能 发 生 什么 样 的 事件 序列 ， 而 不 是 允许 谁 来 激发 事件 。 

图 2-1 用 自动 机 表示 三 方 。 在 图 中 只 显示 影响 某 一 方 的 事件 。 例 如 ， 付 款 行动 只 影响 顾客 和 
商店 。 银 行 不 知道 顾客 把 钱 送 给 商店 :只 有 当 商 店 执行 区 换行 动 时 ， 银 行 才 知 道 这 样 的 事实 。 

首先 检查 表示 银行 的 自动 机 (图 2-1c)。 初 始 状 态 是 状态 1， 表 示 这 样 的 局 面 : 银行 已 经 发 
行 了 所 讨论 的 货币 文件 ， 但 还 没有 收 到 兄 换 或 取消 的 请 求 。 如 采 顾 客 把 取消 请 求 送 到 银行 ， 银 
行 就 把 钱 存 到 顾客 的 账户 并 进入 状态 2。 状 态 2 表示 已 经 取消 了 这 笔 钱 的 局 面 。 负 责任 的 银行 一 
旦 进入 状态 2 就 不 再 离开 ， 因 为 银行 必须 防止 顾客 再 次 取消 或 花费 这 笔 钱 ”。 


日 读者 应 当 记 住 ， 整 个 讨论 都 是 关于 一 个 货币 文件 的 。 事实 上 ， 银 行 运行 相同 的 协议 来 处 理 大 量 的 电子 货币 ， 但 
对 于 每 个 电子 货币 来 说 ， 协 议 的 工作 都 是 相同 的 ， 所 以 可 以 这 样 来 讨论 这 个 问题 ,似乎 只 存在 一 个 电子 货币 。 


有 
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图 2-1 表示 顾客 、 商 店 和 银行 的 有 穷 自动 机 


马 一 种 情况 是 ， 银 行 在 状态 1 时 可 接受 商店 的 兑换 请 求 。 如 果 这 样 ， 银 行 就 进入 状态 3， 立 
刻 站 商店 发 送 转账 消息 ， 附带 现 在 属于 商店 的 新 的 货币 文件 。 银 行 在 发 送 转账 消息 后 进入 状态 4。 
在 状态 4 中 ， 银 行 既 不 接受 取消 或 兑换 请 求 ， 也 不 再 对 这 个 特定 的 货币 文件 执行 任何 操作 。 

现在 考虑 图 2-1a， 表 示 商 店 行为 的 自动 机 。 银 行 总 是 做 正确 的 事情 ， 但 商店 系统 存在 一 些 
缺陷 。 想 像 一 下 ， 由 不 同 的 进程 来 完成 送 货 和 财务 操作 ， 所 以 有 这 样 的 可 能 ， 送 贷 行 动 是 早 于 、 
晚 于 或 者 正当 交换 电子 货币 时 。 这 个 策略 允许 商店 处 在 这 样 的 局 面 : 商店 已 经 送 了 货 ， 然 后 发 
现货 币 是 假 的 。 

商店 从 状态 a 开始 。 当 顾客 采取 付款 行动 来 预定 货物 时 ， 商 店 进入 状态 b。 在 这 个 状态 中 ， 
商店 同时 开始 送 货 和 兑换 进程 。 如 果 货 物 首先 送 到 ， 商 店 就 进入 状态 c， 在 这 个 状态 下 ， 商 店 仍 
做 要 从 银行 匈 换 货币 并 收 到 银行 转账 的 等 价 货币 文件 。 另 一 种 情况 是 ， 商 店 首先 发 送 兑换 信息 ， 
进入 状态 4。 从 状态 4， 商 店 可 能 接着 送 货 ， 进 入 状态 e， 也 可 能 接着 收 到 银行 转账 的 货币 ， 进 入 
状态 f。 从 状态 f， 预 期 商店 最 终 会 送 货 ， 让 商店 进入 状态 8， 在 这 个 状态 下 ， 交 易 完成 而 不 会 发 
生 其 他 事情 。 在 状态 e， 商 店 等 待 银行 转账 。 不 幸 的 是 ， 货 物 已 经 送出 ， 如 果 转 账 永远 不 发 生 ， 
商店 就 倒霉 了 。 

最 后 查看 图 2-lb， 表 示 顾 客 的 自动 机 。 这 个 自动 机 只 有 一 个 状态 ， 反 映 顾客 “可 做 任何 事 
情 ”的 事实 。 顾 客 可 用 任何 次 序 任意 多 次 采取 付款 和 取消 动作 ， 在 每 次 动作 后 停留 在 那个 单独 
的 状态 中 。 


2.1.3 允许 自动 机 忽略 动作 


图 2-1 的 目 动 机 独立 地 反映 出 三 方 的 行为 ， 却 丢失 了 某 些 转 移 。 例 如 ， 商 店 不 受 取 消 消 息 的 
影响 ， 所 以 如 有 果 顾 客 执行 取消 动作 ， 商 店 还 停留 在 任何 所 处 状态 中 。 但 在 2.2 节 将 要 学 习 的 有 穷 
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自动 机 的 形式 化 定义 中 ， 每 当 自动 机 收 到 输入 X 时 ， 自 动机 都 必须 顺 着 从 所 处 状态 出 发 带 X 标 记 
的 往 弧 ( 带 箭头 的 弧 ， 表 示 有 向 边 ) 来 进入 某 个 新 状态 。 因 此 ， 表 示 商 店 的 自动 机 需要 添加 从 
每 个 状态 到 自身 的 带 取消 标记 的 馈 弧 。 于 是 每 当 执 行 取消 动作 时 ， 商 店 自动 机 就 在 这 个 输入 上 
“转移 ”， 具 有 还 是 停留 在 过 去 状态 下 的 效果 。 如 果 没 有 这 些 附加 的 箭 弧 ， 每 当 执行 取消 动作 时 ， 
商店 自动 机 就 “死亡 ”了 ， 也 就 是 说 ， 自 动机 根本 没有 处 在 任何 状态 中 ， 不 可 能 进行 后 续 动作 。 

另 一 个 潜在 问题 是 ， 某 一 方 可 能 故意 或 错误 发 送 一 个 意料 之 外 的 消息 ， 而 我 们 并 不 希望 这 
个 动作 导致 其 中 一 个 自动 机 死亡 。 例 如 ， 假 设 当 商店 处 在 状态 e 时 ， 顾 客 决定 第 二 次 采取 付款 动 
作 。 由 于 那个 状态 没有 发 出 带 付款 标记 的 箭 弧 ， 所 以 商店 自动 机 在 收 到 银行 的 转账 之 前 就 死亡 
了 。 总 之 ， 必 须 给 图 2-1 的 自动 机 的 某 些 状 态 加 上 环 ， 以 标记 在 那些 状态 中 必须 忽略 的 所 有 动作 ， 
完整 的 自动 机 如 图 2-2 所 示 。 为 了 省 地 方 ， 把 标记 合并 到 一 个 箭 绝 上， 而 不 是 显示 几 个 首尾 相同 

L41] 而 标记 不 同 的 箭 绝 。 
取消 。 付款 、 取 消 ” 付款、 取消 ”付款 、 取 消 





付款 、 取 消 ” 付款、 取消” 付款、 取消 





a) 商店 
付款 、 送 货 
送 货 、 兑 痪 、 转 幅 付款 、 竞 换 、。 付款 、 兑 换 、 
付款 、 取 消 取消 、 送 货 。 取消 、 送 货 
三 
上 付款 、 送 货 〈 (1 ) 
Start Start 
b) 顾客 c) 银行 


图 2-2 三 个 自动 机 的 全 套 转移 


两 类 必须 忽略 的 动作 是 : 

1. 与 各 万 无 关 的 动作 。 我 们 已 经 看 到 ， 与 商店 无 关 的 惟一 行为 是 取消 ， 所 以 商店 的 7 个 状态 
中 每 个 都 有 带 取 消 标记 的 环 。 对 于 银行 ， 付 款 和 送 贷 都 是 无 关 的 ， 所 以 在 银行 的 每 个 状 
态 上 都 加 上 带 付款 和 送 贷 标记 的 箭 弧 。 对 于 顾客 ， 送 贷 、 兑 换 和 转账 都 是 无 关 的 ， 所 以 
加 上 带 这 些 标记 的 箭 弧 。 实 际 上 ， 顾 客 自动 机 在 任何 输入 序列 上 都 停留 在 一 个 状态 中 ， 
所 以 对 整个 系统 的 运行 没有 影响 。 当 然 ， 顾 客 仍然 是 一 方 ， 因 为 是 顾客 引起 付款 和 取消 
动作 。 但 是 ， 已 经 说 过 ， 谁 引起 动作 这 件 事 与 自动 机 的 行为 无 关 。 

2. 导致 自 动机 死亡 的 必 防 动作 。 已 经 说 过 ， 必 须 防 止 顾 客 再 次 执行 付款 以 导致 商店 自动 机 
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死亡 ， 所 以 给 商店 自动 机 除 状 态 a 之 外 的 所 有 状态 都 加 上 和 带 付款 标记 的 环 (在 状态 a 中 ， 
付款 行为 是 预期 的 和 有 关 的 )。 也 给 银行 的 状态 3 和 4 加 上 带 取消 标记 的 环 ， 以 防止 顾客 答 
试 取消 已 经 兑换 的 钱 而 导致 银行 自动 机 死亡 。 银 行 正 确 地 忽略 这 样 的 请 求 。 同 样 ， 状 态 3 
和 4 有 交换 环 。 商 店 不 应 该 尝试 把 同一 笔 钱 兄 换 两 次 ,但 如 来 商店 尝试 了 ， 银 行 就 正确 地 
忽略 第 二 次 请 求 。 


2.1.4 整个 系统 成 为 一 个 自动 机 


现在 有 了 三 方 如 何 行动 的 模型 ， 但 还 没有 表示 出 三 方 的 交互 。 前 面 说 过 ， 由 于 对 顾客 的 行 
为 没有 约束 ， 所 以 顾客 目 动机 只 有 一 个 状态 ， 任 何事 件 序列 都 使 其 停留 在 那个 状态 中 ， 即 不 会 
因为 顾客 目 动 机 对 某 个 行为 没有 响应 ， 而 使 系统 作为 整体 “死亡 ”。 但 商店 和 银行 都 以 复杂 的 方 
式 来 行动 ， 这 两 个 自动 机 能 处 在 什么 样 的 组 合 状态 里 并 不 是 显而易见 的 。 

研究 诸如 此 类 的 自动 机 的 交互 ， 标 准 方法 是 构造 乘积 自动 机 。 乘 积 自动 机 的 状态 表示 一 对 状 
态 : 一 个 是 商店 的 ， 一 个 是 银行 的 。 例 如 ， 乘 积 自动 机 的 状态 3, qd) 表示 这 样 的 局 面 : 银行 处 在 状 
态 3， 商 店 处 在 状态 4。 由 于 银行 有 4 个 状态 ， 商 店 有 7 个 状态 ， 所 以 乘积 自动 机 有 4 x7 = 28 个 状态 。 

乘积 目 动机 如 图 2-3 所 示 。 为 了 清楚 起 见 ， 把 28 个 状态 排 成 阵列 。 各 行 对 应 着 银行 的 状态 ， 
各 列 对 应 着 商店 的 状态 。 为 了 证 省 地 方 ， 还 对 箭 弧 上 的 标记 做 了 缩写 ， 用 P、S、C、R 和 7 分 别 
表示 付款 、 送 货 、 取 消 、 竟 换 和 转账 。 





图 2-3 商店 和 银行 的 乘积 自动 机 


为 了 构造 乘积 自动 机 的 箭 弧 ， 需 要 “并 行 ”运行 银行 自动 机 和 商店 自动 机 。 乘 积 自动 机 的 
两 部 分 各 目 独立 在 各 种 输入 上 转移 。 但 重要 的 是 注意 ， 如 果 两 个 自动 机 之 一 在 收 到 的 某 个 输入 
动作 上 无 状态 可 入 ， 则 乘积 自动 机 因为 无 状态 可 入 而 “死亡 ”。 

为 了 准确 说 明 这 条 状态 转移 规则 ， 假 设 乘 积 自动 机 处 在 状态 (i, x) 中 。 这 个 状态 对 应 这 样 的 
局 面 : 银行 处 在 状态 i， 商 店 处 在 状态 x。 设 Z 是 输入 动作 之 一 。 观 察 表示 银行 的 自动 机 ， 看 是 否 
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有 从 状态 i 出 发 的 带 Z 标 记 的 转移 。 假 设 有 ， 并 且 导 向 状态 j (如 果 银 行 在 输入 Z 上 循环 ，j 就 可 能 
与 ;相同 )。 然 后 ， 观 察 商 店 ， 看 是 否 有 带 Z 标 记 的 箭 弧 导 向 某 个 状态 >。 如 果 7 和 y 都 存在 ， 乘 积 
自动 机 就 有 从 状态 (i, x) 到 (j, 7) 带 2 标记 的 箭 弧 。 如 果 状 态 7 或 ?不 存在 〈 由 于 对 输入 Z， 银 行 或 商 
店 设 有 丛 厂 zx 出 发 的 箭 引 ) ， 就 没有 从 (如 出 发 的 带 Z 标 记 的 箭 弧 。 

现在 来 看 如 何 选 取 图 2-3 的 箭 弧 。 例 如 ， 在 付款 输入 上 ， 商 店 从 状态 a 转移 到 b， 但 在 除 a 外 
其 他 任何 状态 下 都 停留 不 动 。 当 输入 是 付款 时 ， 银 行 停留 在 任何 所 处 状态 中 ， 因 为 这 个 动作 与 
银行 无 关 。 这 个 事实 解释 了 图 2-3 中 4 行 左 端 带 P 标 记 的 4 个 箭 弧 。 

男 一 个 如 何 选 取 入 弧 的 例子 是 ,考虑 竞 换 输入 。 如 果 银 行 收 到 兑换 消息 ， 当 银行 在 状态 1 时 ， 
就 进入 状态 3。 如 果 在 状态 3 或 4 中 ， 就 停留 在 那里 ， 而 在 状态 2 中 银行 自动 机 就 死亡 了 ， 即 无 处 
可 去 。 另 一 方面 ， 当 商店 收 到 兑换 输入 时 ， 能 从 状态 2 到 4， 或 从 状态 c 到 e。 在 图 2-3 里 ， 看 到 6 个 
箭 踊 市 兑换 标记 ， 对 应 着 3 个 银行 状态 和 两 个 商店 状态 的 6 种 组 合 ， 这 些 状 态 都 发 出 带 R 标 记 的 箭 
弧 。 例 如 ， 在 状态 (1, 六 中 ， 带 R 标 记 的 箭 绝 把 自动 机 导向 状态 (3, 加， 因为 兑换 让 银行 从 状态 1 到 
3， 让 商店 从 状态 2 到 dg。 另 一 个 例子 是 ， 从 (4, c) 到 (4, 有 带 R 标 记 的 箭 弧 ， 因 为 兑换 让 银行 从 状 
态 4 回 到 状态 4， 让 商店 从 状态 c 到 状态 e。 


2.1.5 用 乘积 自动 机 验证 协议 


图 2-3 说 明 了 一 些 有 趣 的 事情 。 例 如 ， 在 28 个 状态 中 ， 只 有 10 个 状态 是 从 初始 状态 可 达 的 ， 
饮 始 状态 是 (1, a)， 即 银行 和 商店 自动 机 的 初始 状态 的 组 合 。 注 意 ， 像 (2, e) 和 (4, 四 这 样 的 状态 ， 
都 是 不 可 达 的 ， 也 就 是 说 ,没有 从 初始 状态 到 达 这 些 状态 的 路 径 。 自 动机 里 没有 必要 包含 不 可 
达 状 态 ， 在 这 个 例子 里 却 包 含 了 不 可 达 状 态 ， 这 只 是 为 了 系统 化 。 

但 用 目 动 机 分 析 协 议 〈 比 如 上 面 这 个 ) 的 真正 目的 ， 是 提出 和 回答 下 面 这 种 意义 的 问题 : 
会 发 生 以 下 类 型 的 错误 吗 ? ”在 目前 的 例子 里 ， 可 能 会 问 是 否 有 这 样 的 可 能 : 商店 送 了 货 ， 却 
永远 收 不 到 付款 。 就 是 说 ， 乘 积 自动 机 是 否 会 进入 这 样 的 状态 ， 商 店 已 经 送 了 货 ( 即 状态 是 在 c、 
e 或 8 列 中 ) ， 但 在 过 去 和 将 来 都 没有 在 输入 7 上 的 转移 ? 

例如 ， 在 状态 (3, e) 中 ， 货 已 经 送 了 ， 而 最 终 会 有 在 输入 7 上 到 状态 (4, 8) 的 转移 。 就 银行 正 
在 做 什么 而 言 ， 一 旦 银行 进入 了 状态 3， 就 收 到 了 兑换 请 求 并 处 理 。 这 意味 着 ， 银 行 在 收 到 兑换 
之 前 一 定 处 在 状态 1 中 ， 因 此 还 没有 收 到 取消 消息 ,但 如 果 将 来 收 到 了 ， 就 忽略 这 个 消息 。 因 此 ， 
银行 最 终 会 把 钱 转 到 商店 。 

但 是 ， 状 态 (2, c) 有 问题 。 这 个 状态 是 可 达 的 ， 但 发 出 的 惟一 往 弧 又 回 到 这 个 状态 。 这 个 状 
态 对 应 着 这 样 的 局 面 : 银行 在 收 到 莞 换 消 息 之 前 收 到 取消 消息 ， 但 商店 却 收 到 付款 消息 ， 即 顾 
客 正 在 行 骗 ， 把 同一 笔 钱 先 付款 再 取 销 。 商 店 在 尝试 兑换 货币 之 前 就 轧 蠢 地 送 了 货 ， 当 商店 真 
的 执行 兑换 动作 时 ， 银 行 甚至 不 理 皮 这 个 消息 ， 因 为 银行 处 在 状态 2， 在 这 个 状态 ， 银 行 已 经 取 
消 了 这 钱 ， 不 再 处 理 兑 换 请 求 。 


2.2 确定 型 有 穷 自动 机 


现在 可 以 给 出 有 穷 自动 机 的 形式 化 定义 ， 这 样 就 能 着 手 把 1.1.1 节 和 2.1 节 里 看 到 的 一 些 非 形 
式 化 证 明和 描述 变 得 精确 化 。 首 先 介绍 对 确定 型 有 穷 自 动机 的 形式 化 ， 这 种 自动 机 在 读 任何 输 
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入 序列 后 只 能 处 在 一 个 状态 中 。 术 语 “ 确 定型 ”是 指 这 样 的 事实 ; 在 每 个 输入 上 存在 且 仅 存在 
一 个 状态 ， 自 动机 可 从 当前 状态 转移 到 这 个 状态 。 相 反 ，2.3 市 的 主题 “ 非 确 定型 ”有 穷 目 动机 
可 同时 处 在 . 几 个 状态 中 。 术 语 “ 有 穷 自动 机 ”是 指 确定 型 这 一 类 型 ， 但 常用 “确定 型 ”或 缩写 
DFA， 以 提醒 读者 正在 讨论 哪 种 类 型 的 自动 机 。 


2.2.1 确定 型 有 穷 自 动机 的 定义 


一 个 确定 型 有 穷 自 动机 包括 : 
:一 个 有 穷 的 状态 集合 ,通常 记 作 Q。 
2. 一 个 有 穷 的 输入 符号 集合 ， 通 常 记 作 卫 。 
.一 个 转移 函数 ， 以 一 个 状态 和 一 个 输入 符号 作为 变量 ， 返 回 一 个 状态 。 转 移 函 数 通常 记 作 
0。 在 非 形式 化 表示 自动 机 的 图 中 ,， 用 状态 之 间 的 箭 弧 和 箭 弧 上 的 标记 来 表示 6。 如 果 4 是 
一 个 状态 ，a 是 一 个 输入 符号 ， 则 6(q, go) 是 这 样 的 状态 p， 使 得 从 p 到 4 有 带 c 标 记 的 箭 弧 。 。 

4. 一 个 初始 状态 ， 是 C 中 状态 之 一 。 

5. 一 个 终结 状态 或 接受 状态 的 集合 F。 集合 F 是 0 的 子 集 合 。 

通常 用 缩写 DFA 来 指示 确定 型 有 穷 自动 机 。 最 紧凑 的 DFA 表 示 是 列 出 上 面 5 个 部 分 。 在 证 明 
中 ， 通 常用 “五 元 组 ”记号 来 讨论 DEFA， 

4A=(@, 20, go, 万 

其 中 4 是 DFA 的 名 称 ，Q 是 状态 集合 ，Z 是 输入 符号 ，6 是 转移 函数 ，go 是 初始 状态 ，F 是 接受 状 
态 的 集合 。 


oh 


S| 


2.2.2 DFA 如 何 处 理 串 


关于 DFA 需 要 理解 的 第 一 件 事 情 是 ，DFA 如 何 决定 是 否 “ 接 受 ” oA DFA 的 
语言 ”是 这 个 DFA 接 受 的 所 有 的 串 的 集合 。 假 设 a1a，…a 是 输入 符号 序列 。 让 这 个 DFA 从 初始 

状态 qo 开始 运行 。 查 询 转 移 函 数 6， 比如 说 6(qo, a1) = q1:， 以 找 出 DFA 4 在 处 理 了 第 一 个 输入 符号 
a 之 后 进入 的 状态 。 处 理 下 一 个 输入 符号 a， 求 6(qi, az) 的 值 ， 假 设 这 个 状态 是 gz。 以 这 种 方式 
继续 下 去 ， 找 出 状态 q3, 941, …, 9+:， 使 得 对 每 个 i,， 0(qi-i, qi) = q:。 如 末 qn 属于 F， 则 接受 输入 
qa2…an， 否 则 就 “拒绝 ”。 

例 2.1 形式 化 地 规定 一 个 DFA， 接 受 所 有 仅 在 串 中 某 个 地 方 有 01 序 列 的 0 和 1 组 成 的 串 。 可 
以 把 这 个 语言 L 写 成 : 

{wl1w 形 如 x01y，x 和 ly 是 只 包含 0Oo 和 1 的 两 个 串 } 
为 一 种 在 竖 线 左边 使 用 参数 x 和 y 的 等 价 描 述 是 : 
{x01y1xfhy 是 0O 和 1 的 任意 串 } 

这 个 语言 中 的 串 的 例子 包括 01、11010 和 100011。 不 属于 这 个 语言 的 串 的 例子 包括 e、0 和 

111000。 


日 更 准确 地 说 ， 这 个 图 是 某 个 转移 函数 5 的 图 ， 这 个 图 的 箭 绝 为 反映 出 6 所 规定 的 转移 而 构造 。 
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对 于 接受 这 个 语言 Z 的 自动 机 ， 我 们 知道 些 什么 ? 首先 ， 输 入 字母 表 是 2 = {0, 1}。 有 某 个 
状态 集合 CO， 其 中 一 个 状态 (如 qo) 是 初始 状态 。 这 个 自动 机 需要 记 住 这 样 的 重要 事实 : 至 此 看 
到 了 什么 样 的 输入 。 为 了 判定 01 是 不 是 这 个 输入 的 一 个 子 串 ，4 需 要 记 住 : 

1. 是 人 否 已 经 看 到 了 01? 如 果 是 ， 就 接受 后 续 输入 的 每 个 序列 ， 即 从 现在 起 只 处 在 接受 状 

态 中 。 
2. 是 否 还 没有 看 到 01， 但 上 一 个 输入 是 0， 所 以 如 果 现 在 看 到 1， 就 看 到 了 01， 并 且 接 受 从 
此 开始 看 到 的 所 有 东西 ? 

3. 是 否 还 没有 看 到 01, 但 上 一 个 输入 要 么 不 存在 ( 刚 开 始 运行 )， 要 么 上 次 看 到 1? 在 这 种 

情况 下 ，4 直 到 先 看 到 0 然后 立即 看 到 1 才 接 受 。 

这 三 个 条 件 每 个 都 能 用 一 个 状态 来 表示 。 条 件 (3) 用 初始 状态 qo 来 表示 。 的 确 ， 在 刚 开 始 时 ， 
需要 看 到 一 个 0 然后 看 到 一 个 1。 但 是 如 果 在 状态 qo 下 接着 看 到 一 个 1， 就 并 没有 更 接近 于 看 到 01， 
所 以 必须 停留 在 状态 qo 中 。 即 ，6(qo, 1)=qo。 

但 是 ， 如 果 在 状态 qo 下 接着 看 到 0， 就 处 在 条 件 (2) 中 。 也 就 是 说 ， 还 没有 看 到 过 01， 但 看 到 
了 0。 因 此 ， 用 gq 来 表示 条 件 (2)。 在 输入 0 上 从 qo 出 发 的 转移 是 6(qo, 0) = gq;。 

现在 ,来 考虑 从 状态 q; 出 发 的 转移 。 如 果 看 到 0， 就 并 没有 取得 任何 进展 ， 但 也 没有 任何 退 
步 。 还 没有 看 到 01， 但 0 是 上 一 个 符号 ， 所 以 还 在 等 待 1。 状 态 q; 完 美 地 描述 了 这 种 局 面 ， 所 以 
市 望 69:, 0) = q2。 如 果 在 状态 4 看 到 1 输入 ， 现 在 就 知道 有 一 个 0 后 面 跟 着 1。 就 可 以 进入 接受 状 
态 ， 把 接受 状态 称 为 q+/，41 对 应 上 面 的 条 件 (1)。 就 是 说 ，6(gq;, 1) = gq。 

最 后 ， 必 须 设计 状 态 q! 的 转移 。 在 这 个 状态 下 ， 已 经 看 到 了 01 序 列 ， 所 以 无 论 发 生 什么 事 
情 ， 都 还 是 处 在 这 样 的 局 面 下 : 已 经 看 到 了 01。 也 就 是 说 ，6(q1, 0)==6(gqi, 1) = qi。 

因此 ，Q = {qo, q1, 92}。 已 经 说 过 ，gqo 是 初始 状态 ， 惟 一 的 接受 状态 是 gq!/， 也 就 是 说 ,FF = 
{4q1}。 接 受 语言 L (有 01 子 串 的 串 的 语言 ) 的 自动 机 4 的 完整 描述 是 

A=({qo, qi,92}, {0, 1}, 6, go, {91}) 
其 中 6 是 上 面 描述 的 转移 函数 。 口 


2.2.3 DFA 的 简化 记号 


把 DFA 规 定 成 五 元 组 ， 附 带 对 6 转移 函数 的 详细 描述 ， 这 既 乏 味 又 难 读 。 有 两 种 更 可 取 的 描 
述 自动 机 的 记号 : 

1. 转移 图 ， 就 是 在 2.1 节 看 到 的 那 种 图 。 

2. 转移 表 ， 就 是 列 出 6 函数 的 表格 ， 隐 含 地 说 明 状 态 集合 和 输入 字母 表 。 

2.2.3.1 转移 图 

一 个 DFA A = (Q, 了 ,6,qo, 甩 的 转移 图 是 如 下 定义 的 图 : 

a) 对 C 中 每 个 状态 ， 存 在 一 个 顶点 。 

b) 对 Q 中 每 个 状态 9q 和 中 每 个 输入 符号 a， 设 6(q, a) = p。 于 是 转移 图 有 从 顶点 q 到 顶点 p 的 
这 标记 的 箭 弧 。 如 果 有 几 个 输入 符号 都 导致 从 4 到 p 的 转移 ， 则 转移 图 有 一 个 由 这 些 符 号 
列表 标记 的 箭 绝 。 


月 窟 自动 机 33 


c) 有 一 个 进入 初始 状态 go 的 带 Start 标 记 的 箭 绝 。 这 个 葡 弧 没有 任何 出 发 顶点 。 
d) 对 应 于 接受 状态 (属于 F 的 那些 状态 ) 的 顶点 用 双 圆 圈 标 记 。 不 属于 F 的 状态 用 单 圆圈 。 


例 2.2 图 2-4 显 示 了 例 2.1 中 设计 的 DFA 的 转移 图 。 在 这 个 图 中 看 到 与 三 个 状态 对 应 的 三 个 顶 
上 护 。 有 一 个 Start 篆 弧 进 入 初始 状态 9o， 接 受 状态 q! 表 示 成 双 圆 圈 。 从 每 个 状态 发 出 一 个 带 0 标记 
的 箭 弧 和 一 个 带 1 标记 的 篆 弧 (但 在 状态 q! 的 情况 下 ， 两 个 箭 弧 合并 成 一 个 带 两 个 标记 的 箭 弧 )。 
这 些 箭 弧 每 个 都 对 应 了 例 2.1 设 计 的 6 事实 转移 之 一 。 口 


1 0 
Start 
国人 @))v， 
图 2-4 接受 所 有 带子 串 01 的 串 的 DFA 的 转移 图 
2.2.3.2 转移 表 


转移 表 是 习惯 上 对 像 6 这 样 有 两 个 变量 和 一 个 返回 值 的 函数 的 表格 表示 。 这 个 表 的 各 行 对 应 
着 状态 ， 各 列 对 应 着 输入 。 在 状态 4 对 应 的 行 和 输入 a 对 应 的 列 这 个 位 置 上 


的 项 是 状态 6(q, a)。 时 
例 2.3 ” 例 2.1 的 函数 6 对 应 的 转移 表 如 图 2-5 所 示 。 该 图 还 显示 了 转移 ”| 


FO HH Gl GI 
表 的 其 他 两 个 特征 。 初 始 状态 用 箭头 标记 ， 接 受 状 态 用 星 号 标记 。 由 于 42 | gqg2 | qi 


观察 各 行 和 各 列 的 标题 就 能 推断 出 状态 集合 和 输入 符号 ， 所 以 现在 就 能 图 2-5 例 2.1 的 DFA 
从 转移 表 读 出 所 需 的 所 有 信息 ， 来 惟一 地 规定 这 个 有 穷 自 动机 。 口 的 转移 表 


2.2.4 把 转移 函数 扩展 到 串 


已 经 非 形式 化 地 解释 过 DFA 定 义 一 个 语言 ， 即 导致 从 初始 状态 到 接受 状态 的 状态 转移 序列 
的 所 有 的 串 的 集合 。 就 转移 图 而 言 ，DFA 的 语言 是 从 初始 状态 到 任何 接受 状态 的 所 有 路 径 的 标 
记 的 集合 。 

现在 ， 需 要 准确 说 明 DFA 的 语言 的 概念 。 为 此 ， 定 义 扩 展 转移 函数 ， 描 述 从 任何 状态 开始 
读 任 何 输 入 序列 时 所 发 生 的 事情 。 如 果 6 是 转移 函数 ， 则 从 6 构造 出 的 扩展 转移 函数 称 为 6。 扩 
展 转移 函数 是 这 样 的 函数 ， 接收 状态 qo 和 串 w， 返 回 状态 p，p 是 当 自动 机 从 g 开 始 处 理 输 入 序列 w 
时 所 到 达 的 状态 。 通 过 对 输入 串 的 长 度 进行 归纳 来 定义 6 如 下 : 

基础 ，6(q, s) =g。 也 就 是 说 ， 如 果 在 状态 g 下 不 读 输入 ， 就 还 处 在 状态 g。 

归纳 : 假设 是 形 如 xe 的 串 ， 也 就 是 说 ，o 是 w 的 结尾 符号 ，x 是 包含 除 结尾 符号 外 的 所 有 符 
号 的 串 。 例 如 ， 把 w = 1101 分 解 成 x = 110 和 a = 1。 于 是 

6(g,w) = 6 (6(q,X),a) (2 
现在 式 (2-1) 可 能 看 起 来 有 点 难以 理解 ， 但 是 其 思想 很 简单 。 为 了 计算 6(g, w)， 首 先 计算 6(g, x)， 
自动 机 在 处 理 了 w 的 除 结尾 符号 外 的 所 有 符号 之 后 所 处 的 状态 。 假 设 这 个 状态 是 p， 也 就 是 


唱 回忆 一 下 我 们 的 约定 : 字母 表 开头 的 字母 是 符号 ， 靠 近 字母 表 后 端的 字母 是 串 。 为 了 理解 短语 “ 形 如 xa” 的 
意思 ， 就 需要 这 个 约定 。 


本 ww Www wwe， 


说 ，6(g, x) = p。 那 么 6(q, w) 就 是 从 状态 p 在 输入 a (w 的 结尾 符号 ) 上 转移 所 得 到 的 状态 。 也 就 
是 说 ， 6 (gq, w) = 6 (p, a), 


例 2.4 设计 一 个 DFA 以 接受 语言 
L= {wl1w 同 时 有 偶数 个 0O 和 偶数 个 1} 
很 清楚 ， 这 个 DFA 的 状态 的 任务 是 同时 数 0 和 1 的 个 数 ， 但 是 需要 模 2 来 计数 。 也 就 是 说 ， 用 状态 
来 记 住 至 此 看 到 的 0 的 个 数 是 偶数 还 是 奇数 ， 也 记 住 至 此 看 到 的 1 的 个 数 是 偶数 还 是 奇数 。 因 此 
有 4 个 状态 ， 这 4 个 状态 可 以 给 出 下 列 解 释 : 
qo: 迄今 为 止 看 到 的 0 的 个 数 和 1 的 个 数 都 是 偶数 。 
q1: 迄今 为 止 看 到 的 0 的 个 数 是 偶数 而 1 的 个 数 是 奇数 。 
42: 迄今 为 止 看 到 的 1 的 个 数 是 偶数 而 0 的 个 数 是 奇数 。 
43: 迄今 为 止 看 到 的 0 的 个 数 和 1 的 个 数 都 是 奇数 。 
状态 qo 既是 初始 状态 也 是 惟一 的 接受 状态 。gqo 是 初始 状态 ， 因 为 在 读 任何 输入 之 前 ， 看 到 的 
0 的 个 数 和 1 的 个 数 都 是 0，0 是 偶数 。gqo 是 惟一 的 接受 状态 ， 因 为 qo 恰好 描述 了 0 和 1 的 序列 属于 这 
个 语言 L 的 条 件 。 
现在 几乎 知道 了 如 何 指定 语言 L 的 DFA。 这 个 DFA 是 
A=({qo,q1, 92,93}, {0, 1},0, go, {qo0}) 
其 中 用 图 2-6 的 转移 图 来 描述 转移 函数 6。 注 意 ， 每 个 0 输入 如 何 导致 状态 穿 过 水 平 虚线 。 因 此 ， 
在 看 到 偶数 多 个 0 之 后 ， 总 是 在 这 条 水 平 虚线 之 上 处 在 状态 qo 或 qi 
中 ， 而 在 看 到 奇数 多 个 0 之 后 ， 总 是 在 这 条 水 平 虚线 之 下 处 在 状 ] 





态 q: 或 中 。 同 样 ， 每 个 1 导致 状态 穿 过 季 直 虚线 。 因 此 ,在 看 到 Bho 
偶数 多 个 1 之 后 ， 总 是 在 左 侧 处 在 状态 qo 或 9: 中， 而 在 看 到 奇数 多 /0 ua 
个 1 之 后 ， 是 在 右 侧 处 在 状态 q! 或 4;: 中 。 这 些 事实 是 这 4 个 状态 具 jn 
有 指定 解释 的 非 形式 化 证 明 。 但 是 ， 按 照例 1.23 的 精神 使 用 共同 Cr 0 
归纳 法 ， 就 可 以 形式 化 地 证 明 关于 这 些 状态 的 断言 的 正确 性 。 Wn re 


也 可 以 用 转移 表 来 表示 这 个 DFA， 图 2-7 显 示 这 个 表 。 但 是 ， 
我 们 不 仅 关心 这 个 DFA 的 设计 ， 还 希望 用 它 来 解释 如 何 从 转移 函 。 “四”。 例 >4 的 DRA 的 转移 图 
数 5 来 构造 6。 假设 输入 是 110101。 由 于 这 样 一 个 串 同 时 有 偶数 多 个 0 和 1， 所 以 我 们 期 望 这 样 一 
个 串 属 于 这 个 语言 。 因 此 ， 期 望 (go, 110101) = go， 因为 qo 是 惟一 的 接受 状态 。 现 在 来 验证 这 个 
断言 。 

这 个 验证 包括 : 从 s 开 始 ， 长 度 逐 渐 增 加 ， 对 110101 的 每 个 前 绥 w 计 算 6(go, w)。 把 这 些 计算 
总 结 如 下 : 

。5 (do, s) = go。 

* 6(go,1)=6(6(g0,€),1)=6(g0,1)= gq 

* 6(go, 11)= 6(6(go,1),1)= 6 (qi,1)= go. 

* 6(qo, 110) = 6(6(go, 11),0) = 6 (qo, 0) = q2, 图 2-7 例 2.4 的 DFA 

» 6(qo, 1101) = 6 (6(go, 110), 1) = 6 (gq;, 1) = qs。 的 转移 表 





。6(d, 11010) = 6 (6(gqo, 1101),0) = 6 (gq3,0)= qi。 


。 6(go, 110101) = 6 (6(go, 11010), 1) = 6 (qi, 1) = go。 总 


标准 记号 与 局 部 变量 
阅读 本 市 之 后 ， 读 者 可 能 认为 必须 遵守 本 书 的 习惯 记号 ， 也 就 是 说 ， 必 须 用 6 表示 转移 
函数 ， 用 A 表示 DFA 的 名 字 ， 等 等 。 本 书 倾向 于 在 所 有 的 例子 中 用 同样 的 变量 来 表示 同样 
的 东西 ,因为 这 有 助 于 读者 记忆 变量 的 类 型 ,这 非常 类 似 于 在 程序 中 变量 i 几乎 总 是 整 型 的 。 


但 是 ， 可 以 随便 用 任何 名 字 来 称呼 自动 机 的 部 件 或 其 他 任何 东西 。 因 此 ， 如 果 愿 意 ， 读 者 
可 以 随便 把 DFA 称 为 M， 把 转移 函数 称 为 7。 

而 且 ， 毫 不 奇怪 ， 在 不 同 的 上 下 文中 同样 的 变量 表示 不 同 的 东西 。 例 如 ， 例 2.1 和 例 2.4 
的 PFA 都 给 出 称 为 6 的 转移 函数 。 但 是 ， 这 两 个 转移 函数 各 自 都 是 局 部 变量 ， 只 属于 其 所 在 
的 例子 。 这 两 个 转移 函数 是 非常 不 同 的 ， 相 互 之 间 没 有 任何 关系 。 





2.2.5 ”DFA 的 语言 


现在 ， 定 义 DFA A = (OQ, 5, 6, qo, 下 ) 的 语言 。 这 个 语言 记 作 L(4)， 定 义 为 
L(4) = {w16(go,w) 属于 FF } 
也 就 是 说 ,语言 4 是 让 初始 状态 qo 通 向 接受 状态 之 一 的 申 w 的 集合 。 如 果 对 某 个 DFA A 来 说 L 是 
L(A)， 那 么 我 们 就 说 L 是 正则 语言 。 


例 2.5 ”前 面 说 过 ， 如 果 A 是 例 2.1 的 DFA， 则 ZL(4) 是 包含 01 子 串 的 所 有 0 和 1 的 串 。 如 果 A 是 例 
24 的 DEFA， 则 Z4) 是 0 和 1 的 个 数 都 是 偶数 的 所 有 0 和 1 的 串 。 加 


2.2.6 习题 


习题 2.2.1 图 2-8 中 是 一 个 滚 大 理 石 球 玩具 。 在 A 或 B 处 扔 下 一 个 大 理 石 球 。 杠 杆 x1、xz 和 x3 让 大 
A B 
en 


D 
图 2-8 滚 大 理 石 球 玩具 


do 


理 石 球 落 向 左 方 或 右 方 。 每 当 一 个 大 理 石 球 遇 到 一 个 杠杆 时 ， 就 引起 这 个 杠杆 在 大 理 石 球 通过 
之 后 改变 方向 ， 所 以 下 一 个 大 理 石 球 会 走 相 反 的 分 支 。 
* a) 用 有 穷 自动 机 为 这 个 玩具 建 模 。 设 输入 4 和 B 表 示 扔 进 大 理 石 球 的 人口 。 设 接受 对 应 于 大 
理 石 球 从 D 出 来 ， 不 接受 则 表示 大 理 石 球 从 C 出 来 。 
!b) 非 形式 化 地 描述 这 个 自动 机 的 语言 。 
c) 假设 另 一 种 情况 是 ， 杠 杆 在 允许 大 理 石 球 通过 之 前 就 改变 方向 。(a) 和 (b) 部 分 的 答案 会 变 
成 怎样 ? 

*! 习题 2.2.2 ”6 是 这 样 定 义 的 ， 把 输入 串 分 解 成 任意 串 后 面 跟着 一 个 符号 (在 归纳 部 分 ， 等 式 
(2-1D)) 。 但 是 ， 非 形式 化 地 认为 ，6 描 述 了 沿 着 带 某 个 标记 串 的 路 径 所 发 生 的 事情 ， 如 果 这 是 对 
的 ， 则 在 6 的 定义 中 如 何 分 解 输入 串 其 实 是 无 关 紧 要 的 。 证 明 : 实际 上 对 于 任意 状态 q 以 及 申 x 
和 y，6(q,xy) = 6(6(g, 如 ,为 。 提 示 : 对 lyl 进 行 归纳 。 

! 习题 2.2.3 证明: 对 于 任意 状态 a、 捉 x 以 及 输入 符号 a，6(g, ax) = 6(6(g, qa), 四 。 提 示 : 利 
用 习题 2.2.2。 

习题 2.2.4 给 出 接受 下 列 在 字母 表 {0, 1} 上 的 语言 的 DFA.: 
* a) 所 有 以 00 结 尾 的 串 的 集合 。 
b) 所 有 带 3 个 连续 的 0 (不 必 在 结尾 ) 的 串 的 集合 。 
c) 带 011 子 串 的 串 的 集合 。 
! 习题 2.2.5 给 出 接受 下 列 在 字母 表 {0,1} 上 的 语言 的 DFA; 
a) 所 有 任何 5 个 连续 符号 都 至 少 包含 2 个 0 的 串 的 集合 。 
b) 所 有 倒数 第 10 个 符号 是 1 的 串 的 集合 。 
c) 以 01 开 头 或 结尾 ( 含 同 时 ) 的 串 的 集合 。 
d) 0 的 个 数 被 5 整除 ，1 的 个 数 被 3 整除 的 串 的 集合 。 
!! 习题 2.2.6 给 出 接受 下 列 在 字母 表 {0,1} 上 的 语言 的 DFA， 
* a) 所 有 以 1 开头 ， 当 解释 成 二 进 制 整数 时 是 5 的 倍数 的 串 的 集合 。 例 如 ， 串 101、1010 和 1111 
都 属于 这 个 语言 ， 而 0、100 和 111 则 不 属于 。 
b) 所 有 倒 过 来 解释 成 二 进 制 整数 时 被 5 整除 的 串 的 集合 。 属 于 这 个 语言 的 串 的 例子 是 0、 
010011、1001100 和 0101 。 
习题 2.2.7 设 A 是 一 个 DFA，g 是 4 的 一 个 特定 状态 ， 使 得 对 所 有 输入 符号 a，6 (q, a) = g。 通 
过 对 输入 长 度 进行 归纳 ,证 明 : 对 所 有 输入 串 w，6(q,w) = g。 
习题 2.2.8 设 A 是 一 个 DFA，a 是 4 的 这 样 一 个 输入 符号 ,使 得 对 A 的 所 有 状态 9， 有 6 (q,a) =g。 
a) 通过 对 n 进 行 归纳 ,证 明 : 对 所 有 z>0，6(g,ao) =q， 其 中 a 是 由 n 个 a 组 成 的 串 。 
b) 证 明 : 要 么 {fa} CL(4)， 要 么 {a} 赂 L(4) = 2，。 
*! 习题 2.2.9 设 4= (2, ,6,go, {qi}) 是 一 个 DFA， 假 设 对 所 有 属于 的 a， 有 6 (qo,a) = 6 (gi,aq)。 
a) 证 明 : 对 所 有 w 关 E:， 有 6(qo,w) = 6 (qj,w)。 
b) 证 明 : 如 果 x 是 属于 L(4) 的 非 空 串 ， 则 对 所 有 k>0，x* ( 即 x* 连 写 k 遍 ) 也 属于 L(A4)。 
*! 习题 2.2.10 考虑 带 下 列 转移 表 的 DFA.: 


| 0 | 1 
eh 
*BIIB|IA 
非 形 式 化 地 描述 这 个 DFA 接 受 的 语言 ， 通 过 对 输入 串 的 长 度 进行 归纳 ， 证 明 这 个 描述 是 正确 的 。 
提示 : 当 建 立 归纳 假设 时 ,断言 什么 样 的 输入 导致 每 个 状态 ， 而 不 只 是 断言 什么 样 的 输入 导致 


接受 状态 ， 这 样 更 明智 些 。 
! 习题 2.2.11 对 下 列 转 移 表 重复 习题 2.2.10。 
| 0 | 1 
sr 
*BICIA 
Bi Pd 


2.3 非 确定 型 有 穷 自动 机 


“ 非 确 定型 ”有 穷 自 动机 (NFA) 具有 同时 处 在 几 个 状态 的 能 力 。 通 常 把 这 种 能 力 说 成 对 输 
入 进行 “猜测 ”的 能 力 。 例 如 ， 当 用 自动 机 在 长 的 文本 串 当中 搜索 特定 的 字符 串 (如 关键 字 ) 
时 ， 猜测 ”到 正 处 在 某 个 这 种 串 的 开头 ， 并 且 专 门 用 一 个 状态 序列 来 逐个 字符 地 验证 这 样 的 串 
的 出 现 ， 这 是 很 有 帮助 的 。 在 2.4 节 将 会 看 到 这 种 类 型 的 应 用 的 例子 。 

在 检查 应 用 之 前 ， 需 要 定义 非 确定 型 有 穷 自动 机 ， 证 明 每 个 非 确 定型 有 穷 自 动机 都 接受 某 
个 DFA 也 接受 的 语言 。 也 就 是 说 ，NFA 恰 好 接受 正则 语言 ， 恰 好 与 DFA 一 样 。 然 而 ， 讨 论 NFA 是 
有 许多 理由 的 。 通 常 NFA 比 DFA 更 紧凑 也 更 容易 设计 。 而 且 ， 总 是 可 以 把 NFA 转 换 成 DEFA， 但 
DEA 可 能 比 NFEA 要 多 指数 多 个 状态 。 幸 运 的 是 ， 这 种 情况 很 少见 。 


2.3.1 非 确定 型 有 穷 自 动机 的 非 形式 化 观点 


与 DFA 一 样 ，NFA 也 有 一 个 有 穷 的 状态 集合 、 一 个 有 穷 的 输入 符号 集合 ， 一 个 初始 状态 和 
一 个 接受 状态 的 集合 。 也 有 一 个 通常 称 为 6 的 转移 函数 。DFA 与 NFA 的 区 别 在 于 6 的 类 型 。 对 于 
NFA，6 是 一 个 以 状态 和 输入 符号 为 变量 的 函数 (与 DFA 转 移 函 数 一 样 )， 但 是 返回 0 个 、1 个 或 
多 个 状态 的 集合 (而 不 是 像 DFA 那 样 必须 恰好 返回 一 个 状态 )。 首 先 看 一 个 NFA 的 例子 ,然后 给 
出 精确 的 定义 。 


例 2.6 ”图 2-9 显 示 一 个 非 确定 型 有 穷 自动 机 ， 任 务 是 接受 所 有 仅 以 01 结 尾 的 0 和 1 的 串 。 状 态 
4o 征 初始 状态 ， 可 以 认为 ， 只 要 还 没有 “猜测 ”结尾 的 01 已 经 开始 ， 就 处 在 状态 go 里 (也 许 还 有 
别 的 状态 ) 。 总 是 有 这 样 的 可 能 : 即使 下 一 个 符号 是 0， 这 个 符号 也 不 是 结尾 01 的 开始 。 因 此 ， 
状态 Yo 在 0 和 1 上 都 可 以 转移 到 自身 。 


0, 1 
Start 0 个 1 


图 2-9 接受 所 有 以 01 结 尾 的 串 的 NFA 
但 如 果 下 一 个 符号 是 0， 这 个 NFA 也 可 以 猜测 结尾 01 开 始 了 。 因 此 有 一 个 带 标 记 0 的 往 弧 从 go 
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导向 qg。 注 意 ， 有 两 个 从 go 出 发 带 0 标记 的 箭 弧 。NEA 可 以 选择 进入 go 或 44， 实 际 上 都 进入 ， 当 给 
出 准确 定义 时 就 会 看 到 这 一 点 。 在 q! 状 态 下 ， 这 个 NFA 验 证 下 一 个 符号 是 1， 如 果 是 的 ， 就 进入 
4 状态 而 接受 。 

注意 ， 没 有 从 qi 出 发 带 0 标 记 的 箭 弧 ， 也 根本 没有 从 4 出 发 的 入 弧 。 在 这 些 情 况 下 ， 这 个 
NFA 中 存在 的 与 这 些 状态 对 应 的 线程 干脆 “死亡 ”了 ， 但 其 他 线程 还 可 能 继续 存在 。DFA 对 每 
个 输入 符号 恰好 有 一 个 入 弧 离开 每 一 个 状态 ，NFA 就 没有 这 样 的 约束 。 例 如 ， 在 图 2-9 中 看 到 了 
篆 弧 数 是 0 个 、1 个 和 2 个 的 情况 。 

图 2-10 表 示 NFA 如 何 处 理 输入 的 过 程 。 这 个 图 显示 了 在 图 2-9 的 自动 机 收 到 输入 序列 00101 时 
发 生 的 事情 。 只 能 从 初始 状态 qo 开始 。 当 读 第 一 个 0 时 ， 这 个 自动 机 可 以 进入 状态 qo 或 状态 qi， 
所 以 都 进入 了 。 图 2-10 的 第 二 列表 示 了 这 两 个 线程 。 


40 一 40 一 一 10 一 一 00 一 一 40 一 一 00 


Pons 


41 ql ql 


(不 能 继续 ) what dt 


2 2 
(不 能 继续 ) 
0 0 ] 0 1 
图 2-10 在 处 理 输 入 序列 00101 时 NFA 所 处 的 状态 


然后 读 第 二 个 0。 状 态 qo 又 可 以 同时 进入 go 和 qi1。 但 状态 qi 在 0 上 没有 转移 ， 所 以 死亡 了 。 当 
第 三 个 输入 1 出 现时 ， 必 须 同时 考虑 从 qo 和 qi 出 发 的 转移 。 我 们 发 现 go 在 1 上 只 到 qo， 而 qi 只 到 gq;。 
因此 ， 在 读 001 后 ， 这 个 NFA 处 在 状态 go 和 4 中 。 由 于 9: 是 接受 状态 ， 所 以 这 个 NFA 接 受 001。 

但 输入 还 没有 结束 。 第 4 个 输入 0 导致 9 的 线程 死亡 ， 而 qo 同时 进入 qo 和 gq1。 最 后 一 个 输入 1 使 
4o 到 go 而 91 到 49。 由 于 又 处 在 一 个 接受 状态 中 ， 所 以 接受 00101。 加 


2.3.2 非 确定 型 有 穷 自 动机 的 定义 


现在 介绍 与 非 确 定型 有 穷 自动 机 有 关 的 形式 化 概念 ， 同 时 指出 DFA 与 NFA 之 间 的 区 别 。 实 
质 上 可 以 像 DFA 那 样 来 表示 NFA.: 
A=(Q, 25,6,go0;F) 
其 中 : 
1. QO 是 一 个 有 穷 的 状态 集合 。 
2. > 是 一 个 有 穷 的 输入 符号 集合 。 
3.go 是 初始 状态 ， 属 于 Q。 
4.F 是 终结 (或 接受 ) 状态 的 集合 ， 是 0 的 子 集合 。 
5. 转移 前 数 6 是 一 个 以 Q 中 一 个 状态 和 三 中 一 个 输入 符号 作为 变量 并 返回 0 的 一 个 子 集合 的 
函数 。 注 意 ，NFA 与 DFA 之 间 的 惟一 区 别 在 于 6 返回 值 的 类 型 在 NFA 的 情况 下 ， 返 回 值 
是 一 个 状态 集合 ， 而 在 DFA 的 情况 下 ， 返 回 值 是 单个 状态 。 
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例 2.7 图 2-9 的 NFA 可 以 形式 化 地 规定 为 ; 
({qo, q1, 92}, {0, 1}, 0, qo, {q2}) 


其 中 用 图 2-11 的 转移 表 来 给 出 转移 函数 6 加 i 

注意 ， 转 移 表 可 用 来 规定 NFA 的 转移 函数 ， 也 可 用 来 规定 DFA 的 ”了 go | (oo | Taoj 
转移 函数 。 惟 一 的 区 别 在 于 ，NFA 转 移 表 中 每 一 项 都 是 一 个 集合 , 即 。 ,上 | 各， 
使 这 个 集合 是 单元 素 集合 (只 有 一 个 元 素 )。 还 要 注意 ， 当 在 给 定 输 ”四 11 一人 接受 所 有 L101 
入 上 没有 从 给 定 状态 出 发 的 转移 时 ， 正 确 的 项 是 空 集合 纪 。 结尾 的 串 的 NEA 的 转移 表 


2.3.3 扩展 转移 函数 


与 DFA 一 样 ， 需 要 把 NEFA 的 转移 函数 6 扩展 成 为 扩展 转移 函数 6 ，6 接 收 状 态 *4 和 输入 符号 串 
w， 而 返回 这 样 的 状态 集合 : 如 果 NFA 在 状态 9 上 开始 并 处 理 输 入 串 w， 那 么 NFA 就 处 在 这 些 状 态 
里 。 这 个 思想 如 图 2-10 所 示 ， 本 质 上 ， 如 果 4 是 第 一 列 中 单独 的 状态 ， 则 6(q, w) 就 是 在 读 w 之 后 
所 求 出 的 那 一 列 状态 。 例 如 ， 图 2-10 表 示 6(qo, 001)={qo, 92}。 形 式 化 地 ， 对 NFA 的 转移 函数 6 来 
定义 6 的 方式 如 下 : 

基础 ，6(q, s) = {9}。 也 就 是 说 ， 不 读 任何 输入 符号 ,就 只 能 处 在 原来 的 状态 。 

归纳 : 假设 w 形 如 xa， 其 中 a 是 w 的 结尾 符号 ,x 是 w 的 剩余 部 分 。 还 假设 6(q, x) = {pi, p2,… 
2 讽 ; 

U6 ,0) = {rin a 


那么 6(q, w) = {ri, 72，…, 7m}。 略 微 非 形式 化 地 说 ， 这 样 来 计算 6(q, w): 首先 计算 6(g; )， 然后 
遵循 从 这 些 状态 中 任何 一 个 状态 出 发 的 带 a 标 记 的 任何 转移 。 


例 2.8 用 5 来 描述 图 2-9 的 NFA 处 理 输入 00101 的 步骤 。 这 些 步骤 总 结 如 下 ; 
. 6(qo, 6) = {go}。 
. 6(q0, 0) = 6 (qo, 0) = {qo, qi}。 
。 6 (go, 00) = 6 (qo, 0)U6 (qi, 0) = {qo, 91} UY={qo0, q1}。 
. 6(qo, 001) = 6 (qo, DUS (qi, 1) = {qo} U{q2} = {qo, q2}s 
. 6 (qo, 0010) = 0 (qo, 0)U6 (gq;, 0) = {qo0, q1} UG = {qo0,q91}。 
6. 6 (qo, 00101) = 6 (qo, 1)U6 (gi, 1) = {qo} UU{q2} = {qo0, q2}。 
第 (1) 行 是 基础 规则 。 第 (2) 行 通过 把 6 作用 到 上 个 集合 中 单独 的 状态 9o 上 ， 并 得 到 结果 {go, q1} 来 
得 出 。 第 (3) 行 通过 把 6 对 输入 0 作用 到 上 个 集合 中 的 两 个 状态 上 ， 并 取 结 果 的 并 集 来 得 出 。 也 就 
是 说 ，6 (qo,0) = {qo, 91} 而 6 (qu 0) = 名。 对 于 第 (4) 行 ， 取 6 (go, 1) = {qo} 和 6 (q1, 1) = {42} 的 并 集 。 
第 (5) 行 和 第 (6) 行 类 似 于 第 (3) 行 和 第 (4) 行 。 口 
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2.3.4 ”NFA 的 语言 


前 面 说 过 ;NFA 接 受 串 w 的 条 件 是 : 在 读 w 的 各 个 字符 时 ， 有 可 能 形成 对 下 一 个 状态 的 选择 
序列 ， 并 从 初始 状态 到 达 任 何 接受 状态 。 用 w 的 输入 符号 的 其 他 选择 ， 导 致 非 接受 状态 或 者 根本 


和 vv vv ww WwW 


不 会 导致 任何 状态 ( 即 状态 序列 “死亡 ”)， 这 样 的 事实 不 妨碍 NFA 在 总 体 上 接受 w。 形 式 化 地 ， 
如 果 A = (OQ, 匡 ;6 ,go; 卫 ) 是 一 个 NFA， 则 
L(A) = {wl6 (qo, WNFzO} 


也 就 是 说 , L(4) 是 3" 中 使 得 6(g6;w) 至 少 包含 一 个 接受 状态 的 串 w 的 集合 。 


例 2.9 ”作为 例子 ， 形 式 化 地 证 明 图 2-9 的 NFA 接 受 语言 L = {w 1w 以 01 结 尾 }。 证 明 是 对 刻画 3 
个 状态 的 下 列 3 个 命题 的 互 归纳 。 \ 
1. 对 每 个 w， 6 (qo, WwW) 包含 go。 
2. 6(go, mW) 包含 %， 当 且 仅 当 w 以 0 结尾 。 
3. 6(qo, w) 包 含 ， 当 且 仅 当 w 以 01 结 尾 。 
为 了 证 明 这 些 命题 ， 需 要 考虑 4 怎样 到 达 每 一 个 状态 ， 即 最 后 一 个 输入 符号 是 什么 ， 以 及 4 在 读 
那个 符号 之 前 处 在 什么 状态 ? 
由 于 这 个 自动 机 的 语言 是 使 得 56(go, w) 包 含 g; 的 串 w 的 集合 (因为 9 是 惟一 的 接受 状态 )， 这 
三 个 命题 的 证 明 ， 特 别 是 (3) 的 证 明 ， 就 保证 了 这 个 NEA 的 语言 是 以 01 结 尾 的 串 的 集合 。 这 个 定 
理 的 证 明 是 对 w 的 长 度 Iwl 从 长 度 0 开 始 归纳 。 
基础 : 如 果 Iwl = 0， 则 w = e。 命 题 (1) 说 6(gqo, a) 包 含 go。， 根 据 6 的 定义 的 基础 部 分 ， 这 是 对 
的 。 对 于 命题 (2)， 知 道 E 不 以 0 结尾 ， 也 知道 6(qo, sj 不 包含 44， 这 也 是 根据 6 的 定义 的 基础 部 分 。 
因此 ， 这 个 “ 当 且 仅 当 ”命题 两 边 的 假设 都 为 假 ， 因 此 这 个 命题 的 两 个 方向 都 为 真 。 对 w = 证 
明 命题 (3)， 本 质 上 与 上 面 证 明 命题 (2) 是 一 样 的 。 
归纳 : 假设 w = xa， 其 中 a 是 一 个 符号 ， 要么 是 0， 要 么 是 1。 可 以 假设 命题 (1) 到 (3) 都 对 x 成 
立 ， 需 要 证 明 对 w 也 都 成 立 。 也 就 是 说 ,假设 wl =n + 1， 所 以 xl =n。 对 n 假 定 归 纳 假设 ， 对 n+ 1 
进行 证 明 。 
1. 知道 6(qo, x) 包 含 go。 由 于 在 0O 和 1 上 都 有 从 go 到 自身 的 转移 ， 所 以 6(qo, 如 也 包含 mo， 所 以 
就 对 w 证 明了 命题 (1)。 
2.，( 当 ) 假设 w 以 0 结尾 ， 即 a = 0。 对 x 应 用 命题 (1)， 就 知道 6(go, 悦 包含。 由 于 在 输入 0 上 
有 从 go 到 qi 的 转移 ， 所 以 6(qo, w) 包 含 gi。 
( 仅 当 ) 假设 6(qo, w) 包 含 q+。 如 果 观 察 图 2-9 中 的 图 ， 就 看 到 进入 状态 gq! 的 惟一 方式 是 让 
输入 序列 w 具 有 x0 的 形式 。 这 就 足以 证 明 命 题 (2) 的 “ 仅 当 ”部 分 了 。 
3. ( 当 ) 假设 w 以 01 结 尾 。 于 是 如 果 w = xa， 就 知道 a = 1 而 x 以 0 结尾 。 对 x 应 用 命题 (2)， 就 
知道 6(qo,) 包 含 q1。 由 于 在 输入 1 上 有 从 gi 到 gq; 的 转移 ， 所 以 6(qo, w) 包含 gs 
( 仅 当 ) 假设 6(qo, w) 包 含 qg。 观 察 图 2-9 中 的 图 ， 发 现 进入 状态 q; 的 惟一 方式 是 w 具 有 x1 的 
形式 ， 其 中 6(go, ) 包 含 g1。 对 x 应 用 命题 (2)， 就 知道 夏 \0 结 尾 。 因 此 ，w 以 01 结 尾 ， 这 样 
就 证 明了 命题 (3)。 口 


2.3.5 确定 型 有 穷 自 动机 与 非 确定 型 有 穷 自 动机 的 等 价 性 


对 许多 语言 来 说 ， 比 如 以 01 结 尾 的 串 的 语言 ( 例 2.6)， 构 造 NFA 比 构造 DFA 更 容易 ， 出 人 意 
料 的 是 ， 每 一 个 用 某 个 NFA 描 述 的 语言 也 能 用 某 个 DFA 来 描述 。 而 且 ， 实 际 上 DFA 具 有 与 NFA 大 


vv， ww 


约 一 样 多 的 状态 ， 但 通常 会 有 更 多 的 转移 。 不 过 在 最 坏 情 况 下 ， 最 小 的 DFA 可 能 有 2" 种 状态 ， 
而 同一 个 语言 的 最 小 NFA 只 有 n 种 状态 。 


DFA 能 做 NFA 所 做 的 一 切 ， 这 个 证 明 与 一 个 重要 的 构造 有 关 ， 称 为 子 集 构造 ， 因 为 这 与 构 


造 NFA 状 态 集 合 的 所 有 子 集 有 关 。 在 一 般 情况 下 ， 许 多 关于 自动 机 的 证 明 都 与 从 一 个 自动 机 构 
千 男 一 个 目 动机 有 关 。 重 要 的 是 注意 ， 子 集 构造 是 这 样 一 个 例子 : 说 明 如 何 形 式 化 地 用 一 个 自 
动机 的 状态 和 转移 来 描述 另 一 个 自动 机 ， 却 不 知道 前 者 的 具体 情况 。 


子 集 构造 从 一 个 NFA N = (Qn, 卫 , 6w， qo, Fw ) 开始 。 目 标 是 描述 一 个 DFA D = (On 3, 0， 


{qo}, Fo )， 使 得 L(D) = L(N)。 注 意 ， 这 两 个 自动 机 的 输入 字母 表 是 一 样 的 ，D 的 初始 状态 是 只 
含 N 的 初始 状态 的 集合 。D 的 其 他 部 件 构 造 如 下 。 
“Op 是 Qn 的 子 集 的 集合 ， 即 Ob 是 Qw 的 索 集 合 。 注 意 ， 如 果 Cw 有 n 种 状态 ， 则 Qo 就 有 2* 种 
状态 。 通 常 这 些 状 态 不 都 是 从 Qo 的 初始 状态 可 达 的 。 可 以 “丢弃 ”不 可 达 状 态 ， 所 以 实 
际 上 ，D 的 状态 数 可 能 远 远 小 于 2"。 
* Fo 是 使 得 SMFw 关 多 的 Qw 的 子 集合 $ 的 集合 。 也 就 是 说 ，Ep 是 所 有 至 少 含有 一 个 N 的 接受 状 
态 的 N 的 状态 集合 的 集合 。 
* 对 于 每 个 集合 S$ CON 以 及 中 每 个 输入 符号 a， 


6p (5,a) = (J 6v(p,a) 
p 属 于 S 


也 就 是 说 ， 为 了 计算 6p(5, a)， 检 查 5 中 所 有 的 状态 p， 看 看 N 在 输入 4a 上 从 p 进 入 哪些 状态 ， 
取 所 有 这 些 状 态 的 并 集 。 


例 2.10 ” 设 N 是 图 2-9 的 接受 所 有 以 01 结 尾 的 串 的 自动 机 。 由 于 和 N 的 状态 集合 是 {go, q1, q2}， 
所 以 子 集 构造 产生 一 个 带 23= 8 种 状态 的 DFA， 对 应 于 这 3 种 状态 的 所 有 子 集合 。 图 2-12 显 示 这 8 
种 状态 的 转移 表 。 很 快 就 要 说 明 如 何 计算 其 中 某 些 项 目的 细节 。 

注意 ， 这 个 转移 表 属于 一 个 确定 型 有 穷 自 动机 。 即 使 这 个 表 中 的 项 目 都 是 集合 ， 所 构造 的 
DFA 的 状态 也 不 是 集合 。 为 了 说 得 更 清楚 一 点 ， 可 以 为 这 些 状态 设计 新 的 名 字 ， 如 A 表示 @，B 
表示 {qo}， 等 等 。 图 2-13 的 DFA 转 移 表 恰好 定义 与 图 2-12 同 样 的 自动 机 ， 但 是 清楚 地 说 明了 表 中 
的 项 目 都 是 DFA 的 单个 状态 。 










1 

2 | 

{go} {qo} i 

{qi1} {92} A|D 

*{g2} 纪 4 示 通 

{qo0, q1} {qo0, 91} {go, g2} 让 

*{qgo, q2} || {qo,g1} {go} os D2; 

*{q1,92} || 包 {g2} pW | 7 

*{qo, 91, 92} || {90;q1} | {90, gq2} B: DE 
图 2-12 从 图 2-9 得 出 的 完整 的 子 集 构造 图 2-13 为 图 2-12 的 状态 重 命名 


在 图 2-13 的 8 种 状态 中 ， 从 状态 8 开始 ， 只 能 到 达 状 态 8、E 和 。 其 余 5 种 状态 都 是 从 初始 状 
态 不 可 达 的 ， 也 都 可 以 不 出 现在 表 中 。 如 果 像 下 面 这 样 在 子 集合 上 执行 “惰性 求 值 "， 通 常 就 能 
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避免 以 指数 时 间 步 又 为 每 个 状态 子 集合 构造 转移 表 项 目 。 
基础 : 我 们 确切 知道 ， 只 包含 N 的 初始 状态 的 单元 素 集 合 是 可 达 的 。 
归纳 ; 假设 已 经 确定 状态 集合 3 是 可 达 的 。 于 是 对 每 个 输入 符号 wa， 计 算 状 态 集合 Oo (S, a)， 
知道 这 些 状态 集合 也 都 是 可 达 的 。 
对 于 所 讨论 的 例子 ， 知 道 {qo} 是 DFA 刀 的 一 个 状态 。 我 们 发 现 op ({qo}, 0) = {qo, q1} 和 6p ({gqo}， 
1) = {qo}。 这 两 个 事实 是 这 样 产 生 的 : 查看 图 2-9 的 转移 表 ， 注意 到 在 0 上 同时 有 从 qo 到 qo 和 qi 的 
第 弧 ， 而 在 1 上 只 有 从 qo 到 qo 的 箭 弧 。 因 此 得 到 DFA 转 移 表 的 一 行 ， 图 2-12 的 第 2 行 。 
计算 出 的 两 个 集合 之 一 是 “ 旧 的 ”， 已 经 考虑 过 {go} 了 。 但 男 一 个 ({qo, q1}) 是 新 的 ， 必 须 
计算 其 转移 。 发 现 6p ({qo, gj}, 0) = {go, q1} 和 6p ({qo, 91},; 1) = {qo, 92}。 比 如 ， 看 后 一 项 计算 ， 
知道 
Op ({qo, 491}, 1) = Ow (qo, 1)UOw (qi, 1) = {qo}U{q2} = {qo0, q2} 
现在 得 出 了 图 2-12 的 第 5 行 ， 还 发 现 了 一 个 新 的 DD 状态 {qo, 92}。 类 似 的 计算 表明 
Op ({qo, q2}, 0) = Ow (qo, 0)UOw (q2, 0) = {qo0, 91} UG = {qo, q1} 
Op ({qo, q2}, 1) = Ow (qo, DJUov (gq;, 1) = {qo} UG = {qo} 
这 些 计算 给 出 了 图 2-12 的 第 6 行 ， 但 只 给 出 了 已 经 见 过 的 状态 集合 。 
因此 ， 完 成 了 子 集 构造 。 知 道 了 所 有 的 可 达 状 态 及 其 转移 。 整 个 DFA 如 图 2-14 所 示 。 注 意 ， 
它 只 有 3 种 状态 , 碰巧 与 构造 来 源 于 的 图 2-9 的 NFA 的 状态 数 完全 一 样 。 但 与 图 2-9 的 4 个 转移 相 比 ， 
图 2-14 的 DEFA 有 6 个 转移 。 口 





图 2-14 从 图 2-9 的 NFA 构 造 出 的 DFA 


需要 形式 化 地 证 明 这 个 子 集 构造 是 正确 的 ， 尽 管 这 些 例子 说 明了 证 明 的 直觉 。 在 读 输入 符 

号 序列 w 后 ， 所 构造 的 DFA 处 在 这 样 一 个 状态 : 这 个 状态 是 NFA 在 读 w 后 所 处 的 状态 的 集合 。 由 
于 DFA 的 接受 状态 是 至 少 包 含 一 个 NFA 接 受 状态 的 集合 ， 而 且 如 果 NFA 至 少 进 入 一 个 自身 的 接 
受 状态 ， 则 NFA 也 接受 ， 于 是 得 出 结论 : 这 个 DFA 与 NFA 接 受 完全 相同 的 串 ， 因 此 接受 相同 的 


语言 。 


定理 2.11 如 果 DD=(Qp, ,6p, {qo}, Fp) 是 用 子 集 构造 从 NFA N = (Qw, ,6v, qo, Fw) 构造 出 
来 的 DFA， 那 么 L(D) = L(N)。 
证 明 实际 上 首先 证 明 (对 Iwl 进 行 归纳 ): 


6p ({qo}, w) = 6w (qo, w) 
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注意 ， 每 个 6 函数 都 返回 Ow 的 状态 集合 ， 但 6o 把 这 个 集合 解释 成 Co 的 状态 之 一 (Qo 是 Ow 的 客 
集合 )， 而 6w 却 把 这 个 集合 解释 成 Cv 的 子 集合 。 

基础 设 Iw| = 0， 就 是 说 w = s。 根 据 DFA 与 NFA 的 5 的 基础 定义 ，6p ({qo}, 9 和 6w(do, 8) 都 
是 {qo}。 

归纳 : 设 w 长 度 为 + 1， 假 设 命题 对 长 度 n 成 立 。 把 w 分 解 成 w = xa， 其 中 a 是 w 的 结尾 符号 。 
根据 归纳 假设 ，6b({q0},?)= 6w(qo,x)。 设 这 两 个 N 的 状态 集合 都 是 { pi1, pj …, pt}。 

NFA 的 6 的 定义 的 归纳 部 分 说 明 : 


0,(guw)= Us ,G) (2) 
另 一 方面 ， 子 集 构造 说 明 ， 
Bp Pas: Ps},0) = 6 (pn0) (23) 
现在 ， 在 DFA 的 6 的 定义 的 归纳 部 分 用 式 (2-3) 和 事实 So (fgo} ,如 = {pis pz …, pi}: 
,gow) = 80(6o {qo},),0) = opPr sp9O = ou (ps0) (02-4) 


因此 ， 式 (2-2) 和 式 (2-4) 说 明 Sn ({qo}, w) = 6w (qo; w)。 当 注意 到 D 和 NN 都 接受 w 当 且 仅 当 6p ({go}， 
w) 或 6n(qo,w) 分 别 包 含 一 个 Fw 中 的 状态 时 ， 就 得 到 了 ZL(D) = L(N) 的 完整 证 明 ， 口 

定理 2.12 一 个 语言 L 被 某 个 DFA 接 受 ， 当 且 仅 当 L 被 菜 个 NFA 接 受 。 

证 明 ( 当 ) 这 个 “ 当 ” 部 分 是 子 集 构造 和 定理 2.11。 

( 仅 当 ) 这 个 部 分 是 容易 的 ， 只 需要 把 一 个 DFA 转 化 成 一 个 等 价 的 NFA。 直 观 上 说 ， 如 果 有 
一 个 DFA 的 转移 图 ， 也 可 把 这 个 图 解释 成 一 个 NFA 的 转移 图 ， 这 个 NFA 碰 巧 在 任何 情况 下 恰好 
有 一 个 转移 选择 。 更 加 形式 化 地 说 ， 设 D = (QO，5, bo, qo, F) 是 一 个 DFA。 定义 N = (QO, ,6w, go， 
刀 是 等 价 的 NFA， 其 中 6w 是 用 下 面 这 条 规则 定义 的 : 


” 如 果 6p (9， a) =p， WI Ow (9， a) {p}。 


通过 对 Iwl 进 行 归纳 ， 就 容易 证 明 : 如 果 6p (go;w)=p， 则 
ee w) {p} 
把 这 个 证 明 留 给 读者 。 结 论 是 ，D 接 受 w， 当 且 仅 当 N 接 受 w， 即 L(D) = LN); 口 


2.3.6 子 集 构 造 的 坏 情形 


在 例 2.10 中 发 现 ，DFA 的 状态 数 不 比 NFA 的 多 。 正 如 前 面 所 述 ，DFA 具 有 与 构造 来 源 于 的 
NFA 大 约 一 样 多 的 状态 ， 实 际 上 这 是 非常 普遍 的 。 但 状态 数 的 指数 增长 也 是 可 能 的 ， 从 一 个 n 状 
态 NFA 构 造 出 的 所 有 2 种 DFA 状 态 可 能 都 是 可 达 的 。 下 面 的 例子 并 不 十 分 接近 这 个 界限 ， 但 有 
助 于 理解 在 与 n+ 1 状态 NFA 等 价 的 最 小 DFA 中 达到 2" 种 状态 的 方式 。 


例 2.13 ”考虑 图 2-15 的 NFA N。L(N) 是 所 有 使 得 倒数 第 z 个 符号 是 1 的 0 和 1 的 所 有 串 的 集合 。 


es 


直观 上 说 ， 接 受 这 个 语言 的 DFA D 必 须 记 住 读 过 的 最 后 n 个 符号 。 由 于 最 后 n 个 符号 的 任何 2 个 
子 集合 都 可 能 是 要 被 记 住 的 那个 ， 所 以 ， 如 果 D 的 状态 少 于 2 个 ， 则 存在 某 个 状态 9， 使 得 D 在 
读 了 两 个 不 同 的 n 位 序列 (比如 aiQ2…an 和 bibe…bn) 就 处 在 状态 q 中 。 
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图 2-15 这 个 NFA 没 有 少 于 "个 状态 的 等 价 DFA 


由 于 这 两 个 序列 是 不 同 的 ， 所 以 它们 必须 在 某 个 位 置 上 不 同 ， 比 如 说 a; 云 b;。 假 设 (根据 
对 称 性 ) w = 1 而 b= 0。 如 果 i = 1， 则 gq 必须 既是 接受 状态 ， 又 是 非 接 受 状 态 ， 因 为 接受 aiq2…a， 
(倒数 第 n 个 符号 是 1)， 而 不 接受 bib，…b,。 如 果 i > 1， 则 考虑 D 在 读 i 一 1 个 0 之 后 进入 的 状态 p。 
那么 p 必 须 既 是 接受 状态 ， 又 是 非 接 受 状态 ， 因 为 接受 ai; au ;1…a, 00…0， 而 不 接受 bi bi ,1…b， 
00…0 。 

现在 ， 来 看 图 2-15 的 NFA N 如 何 工作 。 有 一 个 状态 9o，NFA 无 论 读 了 什么 输入 ， 总 是 处 在 qo 
中 。 如 果 下 一 个 符号 是 1， 则 NN 也 可 以 “猜测 ”这 个 1 就 是 倒数 第 n 个 符号 ， 所 以 N 进 入 状态 qi 以 及 
4qoo 从 状态 qi 出 发 ;任何 输入 都 EN 到 达 q,，， 下 一 个 输入 让 NN 到 达 gq3， 依 此 类 推 ， 直 到 n 一 1 个 输入 
之 后 ，N 处 在 接受 状态 q; 中。 关于 NN 的 状态 的 行为 的 形式 化 命题 是 : 

1. 在 读 任何 输入 序列 w 后 ，N 处 在 状态 qo 中 。 

2. 在读 输 入 序列 w 后 ， 对 i = 1, 2, …, n，N 处 在 状态 q; 中 ， 当 且 仅 当 w 的 倒数 第 i 个 符号 是 1， 

也 就 是 说 ，w 具 有 x1laiq2…ai1 的 形式 ， 其 中 每 个 a; 都 是 输入 符号 。 

不 去 形式 化 地 证 明 这 些 命题 ,证 明 是 很 容易 的 对 Iwl 的 归纳 ， 模 仿 例 2.9。 为 了 完成 这 个 自动 机 恰 
好 接受 那些 倒数 第 n 个 位 置 上 是 1 的 串 的 证 明 ， 考 虑 命题 (2) 对 i = n 的 情况 。 也 就 是 说 ，N 处 在 状态 
qr 中 ， 当 且 仅 当 倒 数 第 n 个 符号 是 1。 但 gq, 是 惟一 的 接受 状态 ， 所 以 这 个 条 件 也 恰好 刻画 了 N 接 受 
的 串 的 集合 。 口 


饮 旧 原理 


例 2.13 中 用 到 一 种 称 为 鸟 业 原理 的 重要 推理 技术 。 通 俗 地 说 ， 如 果 饮 子 数 多 于 饮 巢 数 ， 
每 只 饮 子 飞 进 某 个 饮 巢 ; 则 一 定 至 少 有 一 个 蚀 巢 有 一 只 以 上 蚀 子 。 在 前 面 的 例子 中 ,“ 鲍 
子 ” 就 是 n 位 的 序列 ,，“ 馈 巢 ” 就 是 状态 。 由 于 状态 数 少 于 序列 数 ， 所 以 一 定 有 一 个 状态 对 
应 于 两 个 序列 。 


饮 巢 原理 可 能 看 上 去 是 显而易见 的 ， 但 实际 上 它 依赖 于 饮 子 数 是 有 穷 的 。 因 此 ,适用 
于 有 穷 自 动机 ， 让 状态 对 应 于 铝 梨 ， 但 不 适用 于 有 无 穷 多 个 状态 的 其 他 类 型 的 自动 机 。 

为 了 看 出 为 什么 饮 集 的 有 穷 性 是 必要 的 , 考虑 无 穷 的 情况 , 其 中 僻 巢 对 应 于 整数 1, 2,…。 
给 馈 子 编号 0, 1,2,…， 所 以 名 子 比例 集 多 一 个 。 但是， 对 于 i 二 0， 可 以 把 镶 子 : 送 到 镶 利 i 二 1。 
于 是 无 穷 多 只 铝 子 每 只 都 得 到 一 个 铝 梨 ， 没 有 任何 两 只 鸽子 共享 一 个 鸽 梨 。 





oo 


死 状态 与 DFA 缺 少 某 些 转移 


已 经 形式 化 地 把 PFA 定义 成 ， 在 任何 输入 符号 上 ， 从 任何 状态 出 发 恰好 有 到 达 一 个 状 
态 的 转移 。 但 有 时 候 ， 更 方便 的 做 法 是 把 DFA 设 计 成 ， 在 知道 不 可 能 接受 输入 序列 的 任何 
扩展 的 局 面 下 “死亡 "。 例 如 ,观察 图 1-2 的 自动 机 ， 这 个 自动 机 的 任务 是 识别 单个 的 关键 
字 then， 此 外 什么 也 不 做 。 从 技术 上 说 ， 这 个 自动 机 不 是 一 个 DFA， 因 为 在 大 多 数 符号 上 
从 每 个 状态 出 发 都 缺少 转移 。 


但 这 样 的 自动 机 是 一 个 NFA。 如 果 用 子 集 构 造 将 其 转化 为 DFA， 则 这 个 自动 机 看 上 去 
儿 乎 是 一 样 的 ， 但 它 包 含 一 个 死 状态 ， 也 就 是 说 ， 在 每 个 输入 符号 上 都 进入 自身 的 非 接受 
状态 。 死 状态 对 应 于 名 ， 就 是 图 1-2 的 自动 机 的 状态 的 空 集合 。 

在 一 般 情况 下 ， 对 任何 状态 和 输入 符号 都 有 不 超过 一 个 转移 ， 可 以 给 任何 这 样 的 自动 
机 加 上 一 个 死 状 态 。 然 后 ， 从 每 个 其 他 状态 4 出 发 ， 在 4 设 有 其 他 转移 的 输入 符号 上 ， 加 上 
到 死 状态 的 转移 。 结 果 是 一 个 严格 意义 下 的 DFA。 因 此 ， 如 果 一 个 自动 机 从 任何 状态 出 发 
在 任何 符号 上 至 多 有 一 个 转移 ， 而 不 是 恰好 有 一 个 转移 ， 有 时候 就 说 这 个 自动 机 是 DFA。 





2.3.7 习题 
* 习题 2.3.1 把 下 列 NFA 转 化 为 DFA: 





! 习题 2.3.3 把 下 列 NFA 转 化 为 DFA， 并 且 非 形式 化 地 描述 它 接受 的 语言 : 





! 习题 2.3.4 ”给 出 接受 下 列 语言 的 非 确定 型 有 穷 自 动机 。 尝 试 尽 可 能 多 利用 非 确 定性 。 
* a) 在 字母 表 {0, 1, …,9} 上 的 串 的 集合 ， 使 得 结尾 数字 在 前 面 出 现 过 9 
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都 





b) 在 字母 表 {0, 1, …,9} 上 的 串 的 集合 ， 使 得 结尾 数字 在 前 面 没 有 出 现 过 。 

c) 0 和 1 的 串 的 集合 ， 使 得 有 两 个 0 间隔 的 位 置 数 是 4 的 倍数 。 注 意 ，0 算 是 4 的 倍数 。 

习题 2.3.5 “在 定理 2.12 的 “ 仅 当 ”部 分 里 ， 省 略 了 通过 对 进行 归纳 的 证 明 ; 如 果 6p({qo}， 
w) =p， 则 6w(gqo,w) = {p}。 给 出 这 个 证 明 。 

! 习题 2.3.6 在“ 死 状态 与 DFA 缺 少 某 些 转移 ”的 方 框 中 我 们 断言 :如 果 NFA N 对 任何 状态 和 
输入 符号 至 多 有 一 种 状态 选择 ( 即 6(q, a) 的 规模 从 不 大 于 1)， 则 用 子 集 构造 从 NN 构造 出 的 DFA D 
恰好 具有 NN 的 状态 和 转移 ， 再 加 上 每 当 N 对 给 定 状态 和 输入 符号 缺少 转移 时 ， 所 增加 的 到 一 个 死 
状态 的 转移 。 证 明 这 种 关系 。 

习题 2.3.7 在 例 2.13 中 我 们 断言 : NFA N 在 读 输入 序列 w 后 ， 对 i = 1, 2,…,n， 处 在 状态 gi 中， 

当 且 仅 当 w 的 倒数 第 ;个 符号 是 1。 证 明 这 个 断言 。 


2.4 应 用 : 文本 搜索 


在 本 市 我 们 会 看 到 ， 前 几 节 的 抽象 研究 (其 中 考虑 过 判定 一 个 位 序列 是 否 以 01 结 尾 的 “ 问 
题 ) 实际 上 是 者 干 实 际 问题 的 非常 好 的 模型 ， 这 些 问 题 出 现在 一 些 应 用 中 ， 比 如 Web 搜 索 和 文 
本 信息 提取 。 


2.4.1 在 文本 中 查找 串 


在 Web 和 其 他 在 线 文本 库 的 时 代 ， 一 个 常见 的 问题 是 : 给 定 一 个 单词 集合 ， 查 找 包含 一 个 
(或 全 部 ) 单词 的 所 有 文档 。 搜 索引 擎 是 这 个 过 程 的 通俗 示例 。 搜 索引 擎 使 用 一 种 称 为 “ 倒 排 索 
引 ” 的 特殊 技术 ， 对 Web 上 出 现 的 每 个 单词 (有 1 亿 种 不 同 的 单词 ) ， 保 存 这 个 单词 所 有 出 现 之 
处 的 列表 。 有 非常 大 的 主 存 的 机 器 保持 这 些 列表 的 最 常见 部 分 随时 可 用 ， 人 允许 许多 人 在 瞬间 搜 
索 这 些 文 档 。 

倒 排 索引 技术 没有 利用 有 穷 自 动机 ，crawler 也 要 花费 大 量 时 间 来 复制 Web 和 建立 索引 。 有 
许多 有 关 的 应 用 不 适合 使 用 倒 排 索引 ， 但 很 适合 于 基于 自动 机 的 技术 。 使 应 用 适 于 用 自动 机 来 

1. 所 搜索 的 库 快速 变化 。 例 如 : 

(a) 每 一 天 ， 新 闻 分 析 员 希望 搜索 当天 的 在 线 新 闻 文 章 寻找 有 关 话 题 。 例 如 ， 人 金融 分 析 员 
可 能 搜索 特定 的 股票 代码 或 公司 名 称 。 

(b) “采购 机 器 人 ”希望 搜索 顾客 要 求 的 物品 的 当前 价格 。 机 器 人 从 Web 上 获得 当前 的 目 
录 页 面 ， 然 后 搜索 这 些 页 面 寻 找 提示 具体 物品 价格 的 单词 。 

2. 所 搜索 的 文档 不 能 建立 目录 。 例 如 ，Amazon.com 不 让 crawler 轻 易 发 现 本 公司 销售 的 所 有 
书 的 所 有 页 面 。 实 际 上 ， 在 响应 查询 的 “一 瞬间 ” 才 生 成 这 些 页 面 。 但 可 以 发 出 寻找 关 
于 茶 个 话题 (比如 “finite automata”) 的 书 的 查询 ， 然 后 搜索 获得 的 页 面 寻找 特定 的 单词 ， 

如 评论 部 分 中 的 “excellent”。 


2.4.2 文本 搜索 的 非 确定 型 有 穷 自 动机 
假设 给 定 称 为 关键 字 的 单词 集合 ， 和 希望 查 找 这 种 单词 的 出 现 情况 。 在 这 样 的 应 用 中 ， 可 以 
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设计 一 个 非 确 定型 有 穷 自动 机 ， 用 进入 接受 状态 来 表示 看 到 一 个 这 种 单词 。 把 文档 的 文本 一 次 
一 个 字母 输入 到 NFA， 这 个 NFA 就 识别 出 文本 中 关键 字 的 出 现 情况 。 有 一 种 识别 关键 字 集 合 的 
NFA 的 简单 形式 。 
1. 有 一 个 初始 状态 ， 在 每 个 输入 符号 (比如 可 打印 的 ASCII 字 符 ， 如 果 检 查 文本 的 话 ) 上 有 
到 自身 的 转移 。 直观 上 说 ， 初 始 状态 表示 这 样 的 “猜测 ”， 还 没有 开始 看 到 一 个 关键 字 ， 
即使 已 经 看 到 一 个 关键 字 的 一 些 字母 。 
2. 对 每 个 关键 字 aia2…at， 有 Kk 个 状态 q1, 92,…, qt。 在 符号 a4 上 有 从 初始 状态 q1 出 发 的 转移 ， 
在 符号 a 上 有 从 初始 状态 q1 到 gq 的 转移 ， 等 等 。 状 态 q 是 接受 状态 ， 表 示 已 经 发 现 关键 


字 Qla2 Wa 
例 2.14 假设 希望 设计 一 个 识别 单词 web 和 ebay 的 出 现 的 NEA。 用 上 述 规则 设计 的 NEA 的 


转移 图 在 图 2-16 中 。 状 态 1 是 初始 状态 ， 用 符号 瑟 表 示 所 有 可 打印 的 ASCIH 字 符 。 状 态 2 到 状态 4 
完成 识别 web 的 任务 ， 而 状态 5 到 状态 8 识别 ebay。 口 





图 2-16 一 个 搜索 单词 web 和 ebay 的 NFA 


当然 这 个 NFA 不 是 程序 。 对 于 这 个 NFA 的 实现 ， 有 两 种 主要 选择 : 
1. 写 一 个 程序 来 模拟 这 个 NFA， 计 算出 读 每 个 输入 符号 后 所 处 的 状态 的 集合 。 这 种 模拟 如 
图 2-10 所 示 。 
2. 用 子 集 构造 把 NFA 转 化 成 等 价 的 DFA。 然 后 直接 模拟 这 个 DFA。 
某 些 文本 处 理 程序 实际 上 混合 采用 这 两 种 方法 ， 比 如 UNIX grep 命 令 的 高 级 形式 (egrep 和 
fgrep)。 但 对 本 书 的 目的 而 言 ， 转 换 成 DFA 是 容易 的 ， 而 且 保 证 不 增加 状态 数 。 


2.4.3 识别 关键 字 集 合 的 DFA 


可 以 对 任何 NFA 应 用 子 集 构造 。 但 根据 2.4.2 市 的 策略 ， 对 从 关键 字 集 合 设计 出 的 NFA 应 用 
这 个 构造 时 ， 却 发 现 DFA 的 状态 数 从 不 超过 NFA 的 状态 数 。 由 于 在 最 坏 情 况 下 ， 转 化 成 DFA 时 
状态 数 会 指数 增长 ， 所 以 这 个 事实 是 个 好 消息 ， 解 释 了 为 什么 经 常 使 用 为 关键 字 设 计 NFA 再 从 
其 构造 DFA 的 方法 。 构 造 DFA 状 态 集合 的 规则 如 下 。 
a) 如 果 qo 是 NFA 的 初始 状态 ， 则 {qo} 是 DFA 的 一 个 状态 。 
b) 假设 p 是 一 个 NFA 状 态 ， 并 且 沿 着 带 aia2…am 符号 的 路 径 从 初始 状态 可 达 。 则 有 一 个 DFA 
状态 是 由 下 列 NFA 状 态 组 成 的 集合 : 
1) 9o。 
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享 
2)pe 
3) 每 一 个 其 他 的 沿 着 带 aiaq…aw 后 级 ( 即 形 如 ajaj41…aw 的 任何 符号 序列 ) 标记 的 路 径 从 
qo 可 达 的 NFA 状 态 。 


注意 ， 在 一 般 情况 下 ， 对 每 个 NFA 状 态 p 都 有 一 个 DFA 状 态 。 但 在 步骤 (b) 中 ， 两 个 状态 可 能 实际 
上 产生 相同 的 NFA 状 态 集合 ， 因 此 成 为 DFA 的 一 个 状态 。 例 如 ， 如 果 两 个 关键 字 以 相同 字母 
(比如 a) 开头 ， 则 带 a 标记 从 go 到 达 的 两 个 NFA 状 态 就 产生 相同 的 NFA 状 态 集合 ， 因 此 在 DFA 中 
合 状 。 


例 2.15 ”从 图 2-16 的 NFA 构 造 DFA， 如 图 2-17 所 示 。DFA 的 每 个 状态 还 在 与 利用 上 面 规 则 (b) 
得 出 的 状态 p 相 同 的 位 置 上 。 例 如 ， 考 虑 状态 135， 这 是 {1, 3, 5} 的 缩写 。 这 个 状态 从 状态 3 构造 
而 来 。 它 包括 状态 1， 因 为 DEA 的 每 个 状态 集合 都 这 样 。 它 也 包括 状态 5， 因 为 串 we 的 后 缀 e 让 状 

态 5 从 状态 1 可 达 ， 而 串 we 在 图 2-16 中 到 达 状态 3。 





图 2-17 从 图 2-16 的 NFA 转 化 成 DFA 


可 根据 子 集 构造 来 计算 每 个 DFA 状 态 的 转移 。 规 则 是 简单 的 。 从 任何 包含 初始 状态 go 和 其 
他 一 些 状态 {pu ps, …, pn} 的 状态 集合 出 发 ， 对 每 个 符号 :， 确 定 在 NFA 中 p; 进 入 何 处 ， 让 这 个 
DFA 状 态 有 一 个 带 x 标记 的 转移 ， 这 个 转移 进入 一 个 DFA 状 态 ， 这 个 状态 包含 qo。 和 所 有 zp 在 符 
号 x 上 到 达 的 状态 。 在 从 任何 pi; 出 发 都 没有 转移 的 符号 x 上 ， 让 这 个 DFA 状 态 有 一 个 在 x 上 的 转 
移 ， 这 个 转移 进入 一 个 DFA 状 态 ， 这 个 状态 包含 go 和 在 NFA 中 顺 着 带 x* 标 记 箭 绝 从 go 到 达 的 所 
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有 状态 。 

例如 ， 考 虑 图 2-17 的 状态 135。 图 2-16 的 NFA 在 符号 p 上 有 从 状态 3 和 状态 5 分 别 到 状态 4 和 状 
态 6 的 转移 。 因 此 ， 在 符号 bp 上 ，135 到 达 146， 在 符号 e: 上 ，NFA 没 有 从 状态 3 或 状态 5 出 发 的 转移 ， 
但 有 从 状态 1 到 状态 5 的 转移 。 因 此 ， 在 DFA 中 ，135 在 输入 e 上 到 达 15。 同 样 ， 在 输入 上 ，135 
到 达 12。 

在 每 个 其 他 符号 x 上 ,没有 从 状态 3 或 状态 5 出 发 的 转移 ， 状 态 1 只 到 自身 。 因 此 ， 在 除 b、e 
和 # 外 的 每 个 2 符号 上 有 从 135 到 1 的 转移 。 用 记号 5 一 b - e 一 w 表 示 这 个 集合 ， 用 同样 记号 表 
示 从 五 删除 几 个 符号 的 其 他 集合 。 口 


2.4.4 习题 


习 明 2.4.1 设计 识别 下 列 串 的 集合 的 NFA 。 
“a) abc、abd 和 aacdq， 假 设 字母 表 是 {a,p,c, d}、。 
的 01 LO ROOT 
cj ab、bc 和 ca， 假 设 字母 表 是 {a,b,c}。 
习题 2.4.2 把 习题 2.4.1 的 每 个 NFA 转 化 成 DFA.， 


2.5 市 2 转移 的 有 穷 自动 机 


现在 介绍 有 穷 自动 机 的 另 一 种 扩展 。 新 “特征 ”是 驳 许 在 空 串 es 上 的 转移 。 实 际 上 ， 介 许 
NFA 没 有 收 到 输入 符号 就 自动 转移 。 与 2.3 节 引入 的 非 确定 性 一 样 ， 新 能 力 并 不 扩大 有 穷 自 动机 
接受 的 语言 类 ， 但 的 确 提供 了 一 些 额 外 的 “程序 设计 便利 ”。3.1 节 讨论 正则 表达 式 时 会 看 到 带 e 
转移 的 NFA 〈 称 为 ENFA) 与 正则 表达 式 有 多 么 密切 的 关系 ， 在 证 明 有 穷 自动 机 与 正则 表达 式 接 
受 的 语言 类 之 间 等 价 性 时 ， 它 又 多 么 有 用 。 


2.5.1 2 转移 的 用 途 


从 s-NFA 的 非 形式 化 处 理 开 始 ， 使 用 允许 s 作 为 标记 的 转移 图 。 在 下 面 的 例子 中 ， 认 为 自动 
机 接受 从 初始 状态 到 接受 状态 路 径 的 标记 序列 。 但 沿 着 路 径 的 每 个 e 都 是 “不 可 见 的 "， 即 不 给 
沿途 的 串 增 加 任何 东西 。 


例 2.16 图 2-18 中 是 一 个 e-NFA， 接 受 由 下 列 内 容 组 成 的 十 进 制 数 : 
1. 可 有 可 无 的 + 号 或 一 号 ，; 
2. 数字 串 ; 
3. 小 数 点 ; 
4. 为 一 个 数字 串 。 这 个 数字 串 或 (2) 中 的 串 可 以 为 空 ， 但 这 两 个 数字 串 中 至 少 一 个 不 为 空 ， 
特别 关注 在 e、+ 或 一 之 一 上 从 go 到 gi 的 转移 。 因 此 ， 状 态 gq! 表 示 这 样 的 局 面 ， 已 经 看 到 王 
负 号 (如 果 有 的 话 )， 并 且 可 能 看 到 一 些 看 到 数字 和 小 数 点。 状态 gy 表示 这 样 的 局 面 ， 已 经 看 
到 小 数 点 ， 可 能 看 到 或 没 看 到 之 前 的 数字 。 在 g4， 已 经 肯定 看 到 至 少 一 个 数字 ， 但 还 没有 看 
到 小 数 扣 。 因 此 ， 状 态 qs 表 示 ， 已 经 看 到 小 数 点 及 其 之 前 或 之 后 至 少 一 个 数字 。 读 任何 存在 [22] 


人 


的 数字 时 ， 都 可 以 停留 在 状态 gs 下 ， 也 可 以 选择 “猜测 ”数字 串 已 经 结束 ， 自 动 进入 接受 状 
态 qs。 柄 





图 2-18 接受 十 进 制 数 的 e-NFA 


例 2.17 ”如果 允许 转移， 就 可 以 简化 例 2.14 概 述 的 策略 ， 这 个 策略 用 来 构造 一 个 识别 关键 
字 集 合 的 NFA。 例 如 ， 图 2-16 所 示 识 别 关 键 字 web 和 ebay 的 NFA， 也 可 以 用 ge 转移 来 实现 ， 如 图 
2-19 所 示 。 一 般 情况 下 ， 为 每 个 关键 字 构 造 一 个 完整 的 状态 序列 ， 似 乎 这 是 自动 机 惟一 要 识别 
的 关键 字 。 然 后 ， 加 入 新 的 初始 状态 (图 2-19 中 的 状态 9)， 以 及 到 每 个 关键 字 自 动机 初始 状态 
的 e 转 移 。 的 





图 2-19 用 转移 来 帮助 识别 关键 字 


2.5.2”e-NFA 的 形式 化 定义 


元 全 可 以 像 表 示 NFA 那 样 来 表示 -NFA， 只 有 一 处 例外 : 转移 函数 必须 含有 在 s 上 转移 的 信 
电 。 形 式 化 地 ， 把 e-NFA 4 表示 成 4 = (2,， 2 , 6, qo, F)， 其 中 除 6 外 ， 所 有 组 成 部 分 都 有 与 NFA 同 
样 的 解释 ，6 现在 是 有 下 列 变量 的 函数 : 
1. 0 中 一 个 状态 。 
2. 3U{s} 中 一 个 元 素 ， 也 就 是 说 ， 要 么 是 输入 符号 ， 要 么 是 se 符 号 。 要 求 空 串 符号 es 不 是 字 
母 表 中 的 元 素 ， 所 以 不 会 导致 混乱 。 


例 2.18 图 2-18 的 e-NFA 形 式 化 表示 为 : 
E= ({go, qi,"**， qs}, {i + 人 ;0 ls ma) 9}, 0， G0， {qs}) 
其 中 6 用 图 2-20 的 转移 表 来 定义 。 口 
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图 2-20 图 2-18 的 转移 表 
2.5.3 2 闭 包 


后 面 会 给 出 =NEFA 扩 展 转移 函数 的 形式 化 定义 ， 这 个 定义 引出 这 些 自动 机 所 接受 的 串 和 语言 
的 定义 ， 最 终 人 允许 解 释 为 什么 DFA 能 模拟 se-NFA。 但 首先 需要 学 习 一 个 中 心 定 义 ， 称 为 状态 的 s 
财 己 。 非 形式 化 地 ， 顺 着 所 有 从 状态 4 出 发 带 e 标 记 的 转移 来 求 状 态 g 的 s 闭 包 。 但 当 顺 着 s 到 达 其 
他 状态 后 ， 再 顺 着 这 些 状态 发 出 的 转移 ， 依 此 类 推 ， 最 终 求 出 顺 着 箭 弧 都 带 e 标 记 的 任何 路 径 
从 gq 可 达 的 每 个 状态 。 形 式 化 地 ， 递 归 地 定义 e 闭 包 ECLOSE(gq) 如 下 : 

基础 :状态 g 属 于 ECLOSE(gq)。 

归纳 如果 p 属 于 ECLOSE(q)， 并 且 有 从 状态 p 到 状态 r 带 se 标记 的 转移 ， 则 x 属于 ECLOSE(gq)。 
更 准确 地 说 ， 如 果 6 是 所 讨论 的 -NFA 的 转移 函数 ， 且 p 属 于 ECLOSE(q)， 则 ECLOSE(g) 也 包含 所 
有 属于 6(p, a) 的 状态 。 


例 2.19 对 于 图 2-18 中 的 自动 机 ， 除 了 ECLOSE(go) = {go, qi} 和 ECLOSE(43) = {ga, qs} 这 两 个 
例外 ， 其 余 每 个 状态 都 是 自身 的 e 闭 包 。 原 因 在 于 ， 只 有 两 个 转移 ， 一 个 把 q!/ 加 入 ECLOSE(gqo)， 
另 一 个 把 as; 加 入 ECLOSE(93)。 

图 2-21 给 出 更 复杂 的 例子 。 这 组 状态 可 能 是 某 个 e-NFA 的 一 部 分 ， 可 以 得 出 ， 

ECLOSE(1) = {1, 2, 3, 4, 6} 
顺 看 只 带 e 标 记 的 路 径 从 状态 1 可 达 这 些 状态 的 每 一 个 。 例 如 ， 路 径 1 一 2 一 3 一 6 到 达 状 态 6。 状 态 
7 不 属于 ECLOSE(1)， 因 为 尽管 从 1 可 达 ， 但 路 径 必 须 使 用 不 带 s 标 记 的 箭 绝 4 一 5。 从 顺 着 有 非 
转移 的 路 径 1 一 4 一 5 一 6 从 状态 1 也 可 到 达 状 态 6， 这 个 事实 并 不 重要 。 存在 一 条 路 径 全 带 e 标 记 ， 
这 就 足以 证 明 状 态 6 属 于 ECLOSE(1)。 by 


四 一 一 -人 一 一 -全 
化 
TO 一 -GCC 


a 
图 2-21 一 些 状态 和 转移 
我 们 有 时 需要 对 状态 $ 的 集合 计算 s 闭 包 。 办 法 是 取 每 个 状态 的 ge 闭 包 的 并 集 ， 即 ECLOSE(S) 
=U ECLOSE(g), 
gq 属 于 5S 
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2.5.4”e-NFA 的 扩展 转移 和 语言 


e 闭 包 人 允许 我 们 轻松 解释 当 给 定 ( 非 e) 输入 序列 时 ，e-NFA 的 转移 是 什么 。 从 这 个 解释 出 发 ， 
就 可 以 定义 -NFA 接 受 它 的 输入 是 什么 意思 。 
假设 E = (OQ, 3, 6, qo, F) 是 一 个 e-NFA。 首 先 定义 扩展 转移 函数 6 来 反映 在 输入 序列 上 发 生 什 
么 事情 。 意 图 是 ，6 (q, w) 是 顺 着 这 样 的 路 径 可 达 的 状态 集合 ， 当 把 该 路 径 的 标记 连接 起 来 时 ， 
就 形成 串 w。 与 往常 一 样 ， 这 条 路 径 沿途 的 s 对 形成 w 不 起 作用 。 6 的 正确 递归 定义 是 : 
基础 : 6 (q, e) = ECLOSE(q)。 也 就 是 说 ， 如 果 这 条 路 径 的 标记 是 s， 则 只 能 顺 着 从 状态 4 出 
发 带 e 标 记 的 箭 弧 ， 这 恰好 是 ECLOSE 所 做 的 。 
归纳 : 设 w 形 如 xa， 其 中 a 是 w 的 结尾 符号 。 注 意 ，a 属 于 3; a 不 能 是 es，s 不 属于 卫 。 计 算 6 
(q, ww) 如下: 
1. 设 6(g, 必 ) 为 {pi, pz,…, Px}。 也 就 是 说 ， 这 些 p; 是 从 gq 顺 着 标记 为 x 的 路 径 可 达 的 所 有 状态 。 
这 条 路 径 可 能 以 一 个 或 多 个 带 s 标 记 的 转移 来 结尾 ， 也 可 能 有 其 他 的 e 转 移 。 
2. 设 (和 6 (ph a) 为 {ni, 72,…, rm}。 也 就 是 说 ， 顺 着 带 x 标记 的 路 径 从 gq 到 达 一 些 状态 ， 遵 循 
所 有 带 a 标记 的 从 这 些 状 态 发 出 的 转移 。 这 些 n; 是 顺 着 带 w 标 记 的 路 径 从 gq 可 达 的 一 些 状态 。 
顺 着 下 面 步骤 (3) 中 的 标记 的 箭 弧 ， 从 这 些 ) 求 出 其 他 的 可 达 的 状态 。 
3. 6 (q, w) = 出 ECLOSE(m )。 这 个 附加 的 闭 包 步 骤 包 含 了 所 有 从 4 出 发 带 w 标 记 的 路 径 ， 
考虑 到 了 在 最 后 的 “ 实 ” 符 号 a 上 转移 后 ， 存 在 其 他 带 标 记 的 箭 弧 可 以 遵循 的 可 能 性 。 


例 2.20 对 于 图 2-18 的 e-NFA， 计算 6 (qo, 5.6)。 所 需 的 步骤 总 结 如 下 : 
。6 (qo, £) = ECLOSE(go) = {qo, q1}。 
。 计 算 5 (qo, 5) 如 下 : 
1) 首先 计算 从 状态 qo 和 qi 发 出 的 在 输入 5 上 的 转移 ， 在 上 面 6 (go, £) 的 计算 中 得 到 go 和 qi。 
也 就 是 说 ，6 (qo, 5)U6 (qi, 5) = {qi, q4}。 
2) 然后 求 在 步骤 (1) 中 计算 出 的 集合 中 元 素 的 se 团 包 。 得 到 ECLOSE(qg)UECLOSE(q4) = 
{91}U{q4} = {q1, 94}。 这 个 集合 就 是 6 (qo, 5)。 对 于 后 面 两 个 符号 ， 重 复 这 两 步 模式 。 
。 计 算 5 (qo, 5 .) 如 下 : 
1) 首先 计算 6 (qi,.)U6 (qs,.)= {4q2}U{q3} = {q2, 93}。 
2) 然后 计算 
6 (qo, 5.) = ECLOSE(qg)UECLOSE(gq;) = {q2}U{q3, 9;} = {gq2, q3, 9;}。 
。 计 算 5 (qo, 5 .6) 如 下 : 
1) 首先 计算 6 (gq;, 6)U6 (gs, 6)U6 (gs, 6) = {4q3}U{g3}UG = {gq3}。 
2) 然后 计算 5 (qo, 5 . 6) = ECLOSE(gq;) = {gq3, qs}。 口 


现在 用 预期 的 方式 来 定义 一 个 e-NFA E = (Q, 32,6, qo, 下 ) 的 语言 : L(E) = {wl6 (qo, WFz@}。 
也 就 是 说 ，E 的 语言 是 把 初始 状态 引 向 至 少 一 个 接受 状态 的 串 w 的 集合 。 例如， 在 例 2.20 中 看 
弹 ,、 6 (qo, 5 .6) 包 含 接受 状态 9g;， 所 以 串 5 .6 属于 那个 -NFA 的 语言 。 
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2.5.5 消除 se 转移 
给 定 一 个 e-NFA E， 可 以 求 出 一 个 与 5 接受 相同 语言 的 DFA D。 使 用 的 构造 非常 接近 于 子 集 
构造 ， 因 为 D 的 状态 是 E 的 状态 的 子 集合 。 惟 一 的 不 同 在 于 ， 必 须 处 理 E 的 se 转移 ， 通 过 e 团 包机 
制 来 做 到 这 一 点 。 
设 E = (Qz， 2, 6g, qo, Fz)。 则 等 价 的 DFA 
D= (QOQp, ,0p,qp, FDo) 
定义 如 下 : 
1. Ob 是 Qs 的 子 集 的 集合 。 更 准确 地 说 ， 我 们 将 会 发 现 ，D 的 所 有 可 达 状 态 都 是 Qz 的 e 闭 子 
集 ， 也 就 是 说 ， 这 些 集合 5 C Qs 使 得 $ = ECLOSE(S)。 换 句 话 说， 状态 5 的 e 闭 集 就 是 使 得 
从 $ 中 状态 之 一 出 发 的 任意 ce 转移 都 导向 还 是 属于 5S 的 状态 的 集合 。 注 意 ， 儿 是 e 闭 集 。 
2. 6p= ECLOSE(gqo)， 即 D 的 初始 状态 是 对 仅 由 E 的 初始 状态 构成 的 集合 求 闭 包 得 到 的 。 注 意 ， 
这 个 规则 和 原来 子 集 构造 有 所 不 同 。 在 子 集 构造 中 ， 所 构造 的 自动 机 的 初始 状态 仅 包含 
所 给 定 的 NFA 的 初始 状态 。 
3. Fp 是 包含 至 少 一 个 E 中 接受 状态 的 状态 集合 。 也 就 是 说 ，Fp= {5I5S 属 于 Qp 目 SNFs 取 名 }。 
4. 对 于 所 有 属于 的 a 和 属于 Qo 的 集合 $， 计 算 6b(5, qa) 的 方法 如 下 : 
(a) 设 $ = {pi,p2,'…,pr}。 
(b) 计算 人 网 6g (pi, a)， 设 这 个 集合 是 {71, 12; oz。 
(ec) 则 6o(S;,a) = ( J", ECLOSE(r;), 


例 2.21 ”消除 图 2-18 中 e-NFA 的 e 转 移 ， 下 面 把 这 个 e-NFA 称 为 E。 从 E 构 造 一 个 DFA D， 如 
图 2-22 所 示 。 和 但 为 了 避免 杂乱 无 章 ， 从 图 2-22 省 略 了 死 状态 名 以 及 所 有 到 这 个 死 状态 的 转移 。 
应 当 想 像 ， 对 于 图 2-22 中 所 示 的 每 个 状态 ， 字 母 表 上 的 任意 一 个 输入 都 还 有 到 名 的 其 他 转移 ， 
只 是 这 个 转移 未 标识 出 来 而 已 。 而 且 ， 状 态 多 在 所 有 输入 符号 上 都 有 到 自身 的 转移 。 





图 2-22 DFA D 消 除了 图 2-18 中 的 ge 转移 


由 于 E 的 初始 状态 是 9o，D 的 初始 状态 就 是 ECLOSE(qo)， 即 {gqo, q1!}。 第 一 项 工作 是 求 出 qo 和 gi 
在 各 种 属于 的 符号 上 的 后 继 状 态 ， 注意 这 些 符 号 是 加 减 号 、 小 数 点 和 从 0 到 9 的 数字 。 在 + 和 一 
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上 ，q! 在 图 2-18 中 无 处 可 去 ， 而 qo 进入 q1!。 因 此 ， 为 了 计算 6p({qo,91},+)， 从 {qi} 开 始 求 e 闭 包 。 由 
于 没有 从 qi! 出 发 的 e 转 移 ， 就 有 5p ({gqo, 41}, +) = {q1}。 同 样 ，6b ({qo, q1}, 一 ) = {q1}。 这 两 个 转移 在 
图 2-22 中 显示 成 一 个 箭 弧 。 

然后 需要 计算 6o ({qo, 91},.)。 由 于 在 图 2-18 中 ，gqo 在 小 数 点 上 无 处 可 去 ，q1 进 入 q;， 所 以 必 
须 求 {49} 的 e 闭 包 。 由 于 没有 从 gq 发 出 的 转移 ， 这 个 状态 就 是 自身 的 闭 包 ， 所 以 此 6 ({gqo, qi},.) = 
{42}。 

最 后 必须 计算 Go ({go, q1}, 0)， 作 为 从 {gqo, q1} 在 所 有 数字 上 发 出 转移 的 例子 。 发 现 go 在 数字 上 
无 处 可 去 ， 而 q! 进 入 q1 和 qs。 由 于 这 两 个 状态 都 没有 发 出 e 转 移 ， 就 得 出 5p ({qo, gq1}, 0) = {gq1, qs}。 
对 于 其 他 数字 是 类 似 的 。 

现在 已 经 解释 了 图 2-22 中 {go, 9!} 发 出 的 箭 弧 ， 同 样 地 计算 其 他 的 转移 ， 留 给 读者 来 验证 这 
些 计算 。 由 于 gs 是 E 的 惟一 接受 状态 ，D 的 接受 状态 就 是 那些 包含 gs 的 可 达 状 态 。 在 图 2-22 中 看 
到 用 双 圆 圈 表 示 这 两 个 集合 {qa, qs;} 和 {gq2, q3, qs}。 口 


定理 2.22 一 个 语言 L 被 某 个 e-NFA 接 受 ， 当 且 仅 当 L 被 菜 个 DFA 接 受 。 

证 明  ( 当 ) 这 个 方向 是 容易 的 。 设 对 于 某 个 DFA D,L = L(D)。 对 D 的 所 有 状态 q 都 增加 转 
移 59, 8 = 名 ， 把 D 转 化 为 一 个 e-NFA E。 从 技术 上 说 ， 还 必须 把 D 在 输入 符号 上 的 转移 (如 6 (9， 
a) = p) 转化 为 到 只 包含 p 的 集合 的 NFA 转 移 ， 也 就 是 bs (q, a) = {p}。 因 此 ， E 和 DD 的 转移 是 一 样 
的 ， 但 E 明 确 表达 了 在 e: 上 从 任何 状态 都 没有 转移 。 

( 仅 当 ) 设 已 = (Qs, 5, 68, go, Fz) 是 一 个 e-NFA。 应 用 上 述 修 改 的 子 集 构造 来 产生 一 个 DFA 

D=(Qp,; 5, 0p ,gp, Fp) 

需要 证 明 L(D) = L(E)， 通 过 证 明 E 和 D 的 扩展 转移 函数 相同 来 做 到 这 一 点 。 形 式 化 地 ， 对 w 的 长 
度 用 归纳 法 来 证 明 6 (go,w) = 6 p(qp, W)。 

基础 : 如 果 Iwl =0， 则 w = s。 知 道 6 (qo, 8) = ECLOSE(qo)。 还 知道 qb= ECLOSE(qo)， 因 为 这 
在 D 的 初始 状态 的 定义 。 最 后 ， 对 于 一 个 DFA， 知 道 对 于 任意 状态 p 有 6 (p, se) = p， 所 以 特别 
是 ， 6 p(qp, 5) = ECLOSE(qo)。 因 此 证 明了 6 E(qo, 5) = 6 D(9p, 5)。 

归纳 : 设 w = xa， 其 中 a 是 w 的 结尾 符号 ,假设 这 个 命题 对 于 x 成 立 。 也 就 是 说 ，6 & (go, x) = 
Sota oa。 设 这 两 个 状态 集 都 是 {pi, p2,…, px}。 

根据 对 于 e-NFA 的 6 的 定义 ， 计算 6 E(qo, WwW) 的 方法 如 下 : 

1. 设 {ni,72,…,rm} 是 [65 (Di, a)。 

2. 则 5 s(go, w) =( J”, ECLOSE!(r,). 

如 采 检 查 上 述 修 改 的 子 集 构 造 中 的 DFA D 的 构造 ， 就 看 到 6p ({p1, ps,…, my,a) 同 样 是 用 上 述 
的 两 个 步 又 (1) 和 (2) 构 造 出 来 的 。 因 此 5p(go, w) ( 即 io ({p1, pz,…, pe}》, a)) 等 于 6 (qo,w)。 现 在 
证 明了 6 se(qow) = 6p(qo,w)， 完 成 了 归纳 部 分 。 口 


2.5.6 习题 


月 穷 自 动机 和 0 





E a b C 


>plg |{p} | {a} | {r} 
ql {p} | {a} | {r} lg 
下 


a) 计算 每 个 状态 的 s 闭 包 。 

b) 给 出 这 个 自动 机 接受 的 所 有 长 度 小 于 或 等 于 3 的 串 。 

c) 把 这 个 自动 机 转换 为 DFA。 

习题 2.5.2 对 下 列 e-NFA 重 复习 题 2.5.1: 

E a b c 
人 

9 | {p} | {r | {2,9} 
*T 个 他 个 (0) 


习题 2.5.3 为 下 列 语言 设计 se-NFA。 尝 试用 ge 转移 来 简化 你 的 设计 。 

a) 包含 零 个 或 多 个 4a， 后 面 跟着 零 个 或 多 个 bp， 再 跟着 零 个 或 多 个 c 的 串 的 集合 。 
! b) 包含 着 01 重 复 一 次 或 多 次 或 010 重 复 一 次 或 多 次 的 串 的 集合 。 
! c) 使 得 最 后 10 个 位 置 上 至 少 有 一 个 是 1 的 0 和 1 的 串 的 集合 。 


2.6 小结 


。 确 定型 有 穷 自动 机 : DFA 具 有 有 穷 的 状态 集合 和 有 穷 的 输入 符号 集合 。 指 定 一 个 状态 为 初 
始 状 态 ， 指 定 零 个 或 多 个 状态 为 接受 状态 。 转 移 函 数 确定 每 次 处 理 一 个 输入 符号 时 状态 如 
何 改变 。 

“转移 图 : 用 图 来 表示 自动 机 是 方便 的 ， 图 中 的 顶点 是 状态 ， 用 输入 符号 来 标记 箭 弧 ， 表 示 
这 个 自动 机 的 转移 。 用 一 个 箭头 表示 初始 状态 ， 用 双 圆 圈 表 示 接 受 状 态 。 

。 自 动机 的 语言 : 自动 机 接受 一 些 串 。 如 果 从 初始 状态 开始 ， 由 和 逐个 处 理 一 个 串 中 的 符号 引 
起 的 转移 导向 接受 状态 ， 则 接受 这 个 串 。 就 转移 图 而 言 ， 如 果 一 个 串 是 从 初始 状态 到 某 个 
接受 状态 的 路 径 上 的 标记 ， 则 接受 这 个 串 。 

。 非 确定 型 有 穷 自动 机 : NFEA 与 DFA 的 不 同 在 于 ， 在 给 定 输入 符号 上 从 给 定 状 态 出 发 ，NEFA 
可 有 任意 多 个 (包括 0 个 ) 转移 到 达 下 一 个 状态 。 

。 子 集 构造 :把 NFA 状 态 的 各 种 集合 当 作 DFA 的 状态 ， 就 有 可 能 把 任何 NFA 转 化 为 接受 相同 
语言 的 DFA。 

“Ee 转移 : 通过 允许 在 空 输入 ( 即 根本 没有 输入 符号 ) 上 转移 可 以 扩展 NFA。 这 些 扩展 的 
NFA 可 以 转化 为 接受 相同 语言 的 DFA.。 

“文本 搜索 应 用 : 非 确定 型 有 穷 目 动机 是 表示 模式 匹配 器 的 有 用 方式 ， 模 式 匹 配器 扫描 大 量 
文本 来 搜索 一 个 或 多 个 关键 字 。 和 直接 用 软件 来 模拟 这 些 自动 机 ， 或 者 先 转化 为 DFA 再 模拟 。 


2.7 参考 文献 
一 般 认为 ， 对 有 穷 状态 系统 的 形式 化 研究 起 源 于 [2]。 但 这 篇 文章 是 基于 “神经 网 络 ”的 计 
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1. D. A. Hufftman, “The synthesis of sequential switching circuits,” J. Frank- 
lin Inst. 257:3-4 (1954), pp. 161-190 and 275-303. 


2. W.S. McCulloch and W. Pitts, “A logical calculus of the ideas immanent 
in nervous activity,” Bull. Math. Biophysics 5 (1943), pp. 115-133. 


3. G. H. Mealy, “A method for synthesizing sequential circuits,” Bell System 
Technical Journal 34:5 (1955), pp. 1045-1079. 


4. E. F. Moore, “Gedanken experiments on sequential machines,” in [6], 
pp. 129_153. 


5. M.O. Rabin and D. Scott, “Finite automata and their decision problems,” 
IBM J. Research and Development 3:2 (1959), pp. 115-125. 


6. C. E. Shannon and J. McCarthy, Automata Studies, Princeton Univ. 
Press, 1956. 


第 3 章 正则 表达 式 与 正则 语言 


本 人 章 从 介绍 所 谓 的 “正则 表达 式 ” 记 号 开始 。 这 些 表达 式 是 另 一 种 类 型 的 语言 定义 记号 ， 
在 1.12 市 简单 地 举 过 例子 。 正 则 表达 式 也 可 看 作 是 一 种 “程序 设计 语言 " ， 用 来 表示 某 些 重要 的 
应 用 ， 比 如 文本 搜索 应 用 或 编译 器 部 件 。 正 则 表达 式 与 非 确定 型 有 穷 自 动机 有 密切 关系 ， 可 看 
作 是 描述 软件 部 件 的 NFA 记 号 的 一 种 “用 户 友好 的 ”同类 记号 。 

本 章 在 定义 正则 表达 式 之 后 ， 证 明了 正则 表达 式 能 定义 所 有 正则 语言 ， 而 且 只 能 定义 正则 
语言 。 讨 论 正则 表达 式 在 几 种 软件 系统 中 的 使 用 方式 。 然 后 检查 了 正则 表达 式 适 用 的 代数 定律 。 
这 些 定律 与 算术 代数 定律 极其 相似 ， 但 在 正则 表达 式 代数 与 算术 表达 式 代数 之 间 也 存在 某 些 重 

要 区 别 。 


3.1 正则 表达 式 


现在 把 注意 力 从 类 似 机 器 的 语言 描述 〈 确 定型 和 非 确定 型 有 穷 自 动机 ) 转移 到 代数 描述 : 
“正则 表达 式 ”。 我 们 将 会 发 现 ， 正 则 表达 式 恰好 定义 了 与 各 种 形式 的 自动 机 所 描述 的 相同 的 语 
言 : 正则 语言 。 但 正则 表达 式 提供 了 自动 机 所 没有 的 东西 : 一 种 表达 要 接受 的 串 的 声明 方式 。 
因此 ， 正 则 表达 式 可 作为 许多 串 处 理 系统 的 输入 语言 。 例 子 包 括 : 
1. 搜 索 命 令 ， 比 如 UNIX 的 grep 或 等 价 的 串 查 找 价 命令 ， 这 些 命令 可 以 在 Web 浏 览 器 或 文本 格 
式 的 系统 中 见 到 。 这 些 系统 用 类 似 于 正则 表达 式 的 记号 来 描述 用 户 要 在 文件 中 查找 的 模式 。 
不 同 的 搜索 系统 把 正则 表达 式 转 换 成 DFA 或 NFA， 并 在 所 搜索 的 文件 上 模拟 这 个 自动 机 。 
2. 词法 分 析 器 生成 器 ， 比 如 Lex 和 Flex。 回 忆 一 下 ， 词 法 分 析 器 是 编译 器 部 件 ， 它 把 源 程序 
分 解 成 同等 重要 的 一 个 或 多 个 字符 的 逻辑 单元 ， 称 为 记号 (token)。 记 号 的 例子 包括 关键 
字 (如 while)、 标 识 符 (如 任何 字母 跟着 零 个 或 多 个 字母 或 数字 ) 以 及 符号 (比如 + 
或 <=)。 词 法 分 析 器 生成 器 接受 本 质 上 是 正则 表达 式 的 记号 形式 的 描述 ， 产 生 一 个 DFA， 
识别 哪个 记号 在 输入 中 下 一 个 出 现 。 


3.1.1 正则 表达 式 运 算 符 


正则 表达 式 表示 语言 。 一 个 简单 例子 是 ， 正 则 表达 式 01+10" 表示 包含 所 有 下 面 这 种 串 的 语 
言 : 单个 0 后 面 跟着 任意 多 个 1 或 者 单个 1 后 面 跟着 任意 多 个 0 的 串 。 并 不 期 待 读者 现在 就 知道 如 
何 解释 正则 表达 式 ， 所 以 读者 暂时 要 相信 关于 这 个 表达 式 的 语言 的 命题 。 后 面 很 快 就 会 定义 这 
个 表达 式 中 用 到 的 所 有 符号 ， 那 时 读者 就 会 明白 为 什么 对 这 个 正则 表达 式 的 解释 是 正确 的 。 在 
擂 述 正则 表达 式 记 号 之 前 ， 需 要 学 习 正 则 表达 式 运算 符 所 代表 的 三 种 语言 运算 。 这 些 运 算是 : 

1. 两 个 语言 Z 和 M 的 并 ， 记 作 ZUM， 是 只 属于 Z 或 只 属于 M， 或 者 同时 属于 二 者 的 串 的 集合 。 

例如 ， 如 果 L = {001, 10, 111} 且 M = {e,001}, 则 ZUM = fz, 10,001, 111}.。 
2. 语 言 L 和 M 的 连接 是 以 下 形成 的 串 的 集合 : 取 Z 中 任意 一 个 串 ， 与 M 中 任意 一 个 串 连 接 起 
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来 。 回 忆 一 下 ，1.5.2 节 定义 了 一 对 串 的 连接 ， 一 个 串 后 面 跟着 另 一 个 串 就 形成 了 连接 的 
结 采 。 用 圆 点 或 根本 不 用 任何 运算 符 来 表示 两 个 语言 的 连接 ， 尽 管 连接 运算 符 常 常 称 为 
“点 ”。 例 如 ， 如 果 世 = {001, 10, 111} 且 M = {fe, 001}, 则 LM (或 LM) 是 {001, 10, 111， 
001001, 10001, 111001}。LM 中 前 三 串 是 把 L 中 串 与 连接。 由 于 a 是 连接 运算 的 单位 元 ， 得 
出 的 串 就 与 Z 中 的 串 一 样 。 但 是 ，ZM 中 最 后 三 串 是 这 样 形成 的 : 取 Z 中 每 个 串 ， 与 M 的 第 
二 个 串 001 连 接 。 例 如 ，L 的 10 与 M 的 001 给 出 LM 的 10001。 

.语言 L 的 闭 包 (或 星 ， 或 克 林 闭 包 ) “， 记 作 大 ， 表 示 用 以 下 方式 形成 的 串 的 集合 ;从 Z 中 
取 任 意 多 个 串 ， 可 能 有 重复 〈 即 可 以 多 次 选 同一 个 串 ) ， 把 所 有 这 些 串 连接 起 来 。 例 如 ， 
如 采 L = {0, 1}， 则 是 所 有 0 和 1 的 串 。 如 果 L = {0, 11}， 则 包含 使 得 1 成 对 出 现 的 0 和 1 
的 串 ， 如 011、11110 和 :， 但 01011 和 101 都 不 是 。 更 形式 化 地 说 ，L* 是 无 穷 的 并 UsoLi， 
其 中 = {e}，L1=L， 对 于 i > 1，Li 是 LL…L (i 个 L 的 连接 )。 


Ow 


例 3.1 ”由 于 语言 闭 包 的 想法 颇 有 些 技巧 性 ， 所 以 研究 几 个 例子 。 首 先 ， 设 L = {0, 11}。 ZL?= 
{ 时 ， 这 与 语言 [是 什么 无 关 ， 零 次 宕 表示 从 L 中 选择 零 个 串 。 己 = 工 ， 表 示 从 Z 中 选择 一 个 种。 因 
此 ， 居 展开 式 中 前 两 项 给 出 {e, 0, 11}。 

其 次 ， 考 虑 已。 从 中 取 两 个 串 ， 允 许 重复 ， 有 4 种 选择 。 这 4 种 选择 给 出 天 = {00, 011, 110， 
1111}。 类 似 地 ， 严 表示 对 Z 中 两 个 串 选 择 三 次 所 形成 的 串 的 集合 ， 这 给 出 ; 

{000, 0011,0110, 1100,01111, 11011, 11110, 111111} 

为 了 计算 L"， 要 对 每 个 :计算 L， 取 所 有 这 些 语言 的 并 。L' 至 多 有 2' 个 元 素 。 虽然 每 个 L 是 有 穷 的 ， 
但 无 穷 多 项 的 并 一 般 是 个 无 穷 语言 ， 在 这 个 例子 中 就 是 这 样 

现在 设 Z 是 所 有 0 的 串 的 集合 。 注 意 ，Zz 是 无 穷 的， 这 与 前 面 例子 中 不 一 样 ， 在 前 面 例子 中 
是 有 穷 的 。 但 是 不 难 发 现 L 是 什么 。L?= {e}， 总 是 如 此 。 已 = 工 。 己 是 用 以 下 方式 形成 的 串 的 集 
合 : 取 一 个 0 的 串 ， 与 另 一 个 0 的 串 连 接 。 结 果 还 是 一 个 0 的 串 。 事 实 上 ， 每 个 0 的 串 都 可 写成 两 
个 0 的 串 的 连接 (不 要 忘 了 ，s 也 是 “0 的 串 ”， 这 个 串 总 可 以 作为 所 连接 的 两 个 串 之 一 )。 因 此 ， 
忆 = 志 。 同样 已 = 工 ， 依 此 类 推 。 因 此 ， 在 语言 7 是 所 有 0 的 串 的 集合 的 特定 情形 下 ， 无 穷 的 并 六 = 
DUDUDU… 就 是 LL。 

最 后 一 个 例子 是 Cr = {e}。 注 意 Co = {s}， 但 对 任意 >1，2i 是 空 集合 ， 因 为 不 能 从 空 集中 
选 出 任何 的 串 。 事 实 上 ， 纪 是 其 闲 包 不 是 无 穷 的 仅 有 的 两 个 语言 之 一。 D 


星 运算 符 的 用 法 
在 1.5.2 证 首次 看 到 星 运 算 符 ， 在 那里 ， 把 星 运算 符 应 用 到 一 个 字母 表 上 ， 即 3*。 这 个 
运算 符 形成 了 所 有 从 字母 表 2 来 选择 符号 的 串 。 闭 包 运 算 符 本 质 上 是 一 样 的 ， 但 在 类 型 上 


略 有 区 . 别 。 

假设 L 是 包含 长 度 为 1 的 串 的 语言 ， 而 且 对 3 中 每 个 符号 a，Z 中 都 有 串 a。 于 是 和 了 
看 止 去 ”一 样 ， 但 三 者 具有 不 同 的 类 型 ; Z 是 串 的 集合 ， 卫 是 符号 的 集合 。 另 一 方面 ,着 
与 2" 表示 相同 的 语言 。 





日 术语 “ 克 林 闭 包 ” 中 的 “ 克 林 ” 是 指 S . C 克 林 ， 他 提出 了 正则 表达 式 记号 和 这 个 运算 符 。 
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3.1.2 构造 正则 表达 式 


所 有 类 型 的 代数 都 从 一 些 基 本 表达 式 开始 ， 通 常 是 常量 和 (或) 变量 。 然 后 代数 把 一 组 特 
定 的 运算 符 应 用 到 这 些 基 本 表达 式 上 ， 并 且 应 用 到 前 面 构造 的 表达 式 上 ， 就 允许 构造 出 更 多 的 
表达 式 。 通 常 ， 也 需要 某 种 方法 来 对 运算 符 及 运算 对 象 进行 分 组 。 例 如 ， 熟 悉 的 算术 代数 从 整 
数 和 实数 这 样 的 常量 开始 ， 加 上 变量 ， 用 + 和 x 这 样 的 算术 运算 符 来 构造 更 复杂 的 表达 式 。 
正则 表达 式 代数 也 遵循 这 个 模式 ， 使 用 表示 语言 的 常量 和 变量 ， 以 及 3.1.1 市 中 的 三 种 运算 : 
并 、 点 和 星 。 正 则 表达 式 递 归 地 摘 述 如 下 。 在 这 个 定义 中 ,不仅 描述 了 什么 是 合法 的 正则 表达 
式 ， 还 对 每 个 正则 表达 式 E， 接 述 了 E 所 代表 的 语言 ， 记 作 LL(E)。 

基础 : 基础 包括 三 个 部 分 : 

1. 常量 e 和 是 正则 表达 式 ， 分 别 表示 语言 {e} 和 如。 也 就 是 说 ,L(g) = {Ee} 有 是 LO)= 儿 。 

2. 奋 o 是 任意 符号 ， 则 a 是 正则 表达 式 。 这 个 表达 式 表示 语言 {o}。 也 就 是 说 ，Z(a) = {a}。 注 
意 ， 用 黑体 字 表 示 一 个 符号 所 对 应 的 表达 式 。 这 种 对 应 关系 应 当 是 明显 的 ， 如 a 指 的 是 a。 

3. 变量 ,通常 用 大 写 斜 体 符号 表示 ， 如 L。 它 代表 任意 语言 。 

归纳 : 归纳 步骤 有 四 个 部 分 ， 三 种 运算 符 各 自 对 应 一 个 部 分 ， 插 号 的 引入 对 应 一 个 部 分 。 

1. 如 采 E 和 Fr 都 是 正则 表达 式 ， 则 E+ FF 是 正则 表达 式 ， 表 示 LUE) 和 LLP) 的 并 。 也 就 是 说 ，L(E + 
P= (EULD)., 

2. 如 采 E 和 F 都 是 正则 表达 式 ， 则 EF 是 正则 表达 式 ， 表 示 L(E) 和 L(F) 的 连接 。 也 就 是 说 ， 
L(EF) = L(E)L(F)。 注 意 ， 可 以 任意 地 用 点 来 表示 连接 运算 符 ， 既 作为 语言 上 的 运算 ， 也 
作为 正则 表达 式 上 的 运算 符 。 例 如 ，0.1 是 正则 表达 式 ， 与 01 的 意思 一 样 ， 表 示 语 言 {01}。 
但 是 在 正则 表达 式 中 避免 用 点 作为 连接 ”。 

3. 如 打开 是 正则 表达 式 ， 则 居 是 正则 表达 式 ， 表 示 L(E) 的 闭 包 。 也 就 是 说 ，L(E*) = (L(E))*。 

4. 如 本 下 是 正则 表达 式 ， 则 (BE ( 带 插 号 的 E) 也 是 正则 表达 式 ， 与 表示 相同 的 语言 。 形 式 
化 地 ，L((E)) = CBE)。 


-» 


表达 式 及 其 语言 
严格 地 说 ， 一 个 正则 表达 式 E 只 是 一 个 表达 式 ， 而 不 是 一 个 语言 。 当 要 引用 E 所 表示 的 


语言 时 ， 应 当 使 用 L(E)。 但 当 其 实 想 说 “L(E)” 时 ， 用 说 “E” 来 表示 “L(E)”， 这 是 一 种 
第 见 的 用 法 。 只 要 能 分 清楚 正在 谈论 语言 而 不 是 谈论 正则 表达 式 ， 就 采用 这 个 约定 。 





例 3.2 ，” 写 一 个 正则 表达 式 ， 表 示 包 含 了 交替 的 0 和 1 的 串 的 集合 。 首 先 ， 构 造 一 个 正则 表达 
式 ， 表 示 包 含 单个 串 01 的 语言 。 然 后 用 星 运 算 符 得 到 一 个 表达 式 ， 表 示 所 有 形 如 0101…01 的 串 。 
正则 表达 式 的 基础 规则 说 明 ，0 和 1 分 别 是 表示 语言 {0} 和 {1} 的 表达 式 。 如 果 把 这 两 个 表达 
式 连 接 起 来 ， 就 得 到 了 表示 语言 {01} 的 正则 表达 式 ， 这 个 表达 式 是 01。 一 般 规则 是 ， 如 果 需 要 
一 个 正则 表达 式 表 示 只 包含 串 w 的 语言 ， 就 用 w 本 身 作 为 正则 表达 式 。 注 意 ， 在 正则 表达 式 中 ， 


昌 事实 上 ，UNIX 正 则 表达 式 把 点 用 于 完全 不 同 的 目的 ， 即 表示 任意 的 ASCII 字 符 。 


0 


通常 用 黑体 书写 w 中 的 符号 ， 但 改变 字体 只 是 为 了 帮助 区 分 表达 式 与 串 ， 不 应 当 认为 这 有 什么 重 

现在 ， 为 了 得 到 所 有 包含 01 的 零 次 或 多 次 出 现 的 串 ， 我 们 使 用 正则 表达 式 (01)7”。 注 意 ， 先 
人 在 01 两 边 加 上 括号 ， 以 避免 与 表达 式 01 发 生 混淆，01’ 的 语言 是 所 有 包含 一 个 0 和 任意 多 个 1 的 
串 。 在 3.1.3 节 说 明 这 个 解释 的 理由 ， 简 单 地 说 ， 星 比 点 优先 级 更 高 ， 因 此 在 执行 任何 连接 之 前 
就 选择 星 的 运算 对 象 。 

但 是 ，L((01)”) 不 完全 是 我 们 想 要 的 语言 。 这 个 语言 只 包含 那些 以 0 开头 、 以 1 结尾 、0 和 1 交 
替 出 现 的 串 。 还 需要 考虑 以 1 开头 并 且 (或 者 ) 以 0 结尾 的 可 能 性 。 一 种 方法 是 构造 另外 三 个 正 
则 表达 式 ， 处 理 男 外 三 种 可 能 性 。 也 就 是 说 ，(10)* 表示 以 1 开头 并 且 以 0 结尾 的 交替 串 ，0(10)” 用 
来 表示 以 0 开头 和 结尾 的 串 ，1(01) 用 来 表示 以 1 开头 和 结尾 的 串 。 完 整 的 正则 表达 式 是 

(01) + (10) + 0(10) + 1(01)’ 
注意 ， 用 + 运算 符 来 取 这 四 个 语言 的 并 ， 这 四 个 语言 一 起 给 出 了 所 有 0 和 1 交替 的 串 。 

但 是 ， 还 有 男 一 种 方法 产生 一 个 看 上 去 很 不 相同 的 正则 表达 式 ， 在 某 种 程度 上 更 紧凑 。 还 
是 从 表达 式 (01)* 开始 。 如 果 在 左边 连接 上 表达 式 e + 1， 就 能 在 开头 加 上 一 个 可 有 可 无 的 1。 同 样 ， 
用 表达 式 s+ 0 在 结尾 加 上 一 个 可 有 可 无 的 0。 例 如 ， 用 + 运算 符 的 定义 : 

Le+1)=L(ea)UL(1) = {e}U{1} = {e, 1} 
如 采 把 这 个 语言 与 任意 其 他 语言 工 连 接 起 来 ，s 选 择 就 给 出 上 中 所 有 的 串 ，1 选 择 就 对 Z 中 每 个 串 w 
给 出 lw。 因 此 ， 交 替 的 0 和 1 的 串 的 集合 的 另 一 个 表达 式 是 : 
(e+ 1)(01)'(e+0) 
注意 ， 每 个 增加 的 表达 式 外 面 都 需要 括号 ， 以 确保 这 些 运算 正确 地 分 组 。 中 


3.1.3 正则 表达 式 运算 符 的 优先 级 


像 其 他 代数 一 样 ， 正 则 表达 式 运 算 符 也 有 假设 的 “优先 级 ”顺序 ， 这 意味 着 ， 运 算 符 要 以 
特定 的 顺序 来 结合 运算 对 象 。 读 者 都 非常 熟悉 普通 算术 表达 式 的 优先 级 概念 。 例 如 ，xy + z 把 乘 
积 xy 分 组 在 求 和 之 前 ， 所 以 等 价 于 带 括号 的 表达 式 (xy) + z， 但 不 等 价 于 表达 式 x(y + z)。 同 样 ， 
在 算术 中 两 个 相同 运算 符 从 左边 开始 分 组 。 所 以 x 一 y 一 z 等 价 于 (x 一 ) 一 z， 而 不 等 价 于 x 一 Gy 一 z)。 
下 面 是 正则 表达 式 运算 符 的 优先 级 顺序 : : 
1. 星 运算 符 具有 最 高 优先 级 。 也 就 是 说 ， 星 运算 符 只 作用 到 左边 构成 合法 正则 表达 式 的 最 
短 符号 序列 。 

2. 下 一 个 优先 级 是 连接 即 “ 点 ”运算 符 。 把 所 有 星 与 运算 对 象 分 组 后 ， 再 把 连接 运算 符 与 
运算 对 象 分 组 。 也 就 是 说 ， 把 所 有 并 列 的 〈 相 邻 、 中 间 没 有 运算 ) 表达 式 分 组 到 一 起 。 
由 于 连接 是 结合 的 运算 符 ， 对 连续 的 连接 以 什么 顺序 来 分 组 是 无 关 紧 要 的 ， 但 如 果 要 做 
选择 ， 就 应 当 从 左边 开始 分 组 。 例 如 ， 把 012 分 组 成 (01)2。 

3. 最 后 把 所 有 的 并 (+ 运算 符 ) 与 运算 对 象 分 组 。 由 于 并 也 是 结合 的 ， 对 连续 的 并 以 什么 顺 
序 来 分 组 也 是 无 关 紧 要 的 ， 但 应 当 假设 从 左边 开始 分 组 。 
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当然 ， 有 时 不 希望 按照 运算 符 的 优先 级 所 要 求 的 那样 来 对 正则 表达 式 分 组 。 如果 是 这 样 ， 


苞 随 意 用 括号 按照 所 选择 的 来 对 运算 对 象 分 组 。 另 外 ， 在 需要 分 组 的 运算 对 象 外 面 加 上 括号 ， 
这 永远 不 会 引起 任何 错误 ， 即 使 所 需要 的 分 组 是 优先 级 规则 所 蕴涵 的 也 是 如 此 。 


达 式 (0(1))。 最 后 并 运算 符 连 接 了 前 面 的 表达 式 和 右边 的 表达 式 1，。 
的 集合 。 


例 3.3 把 表达 式 01 + 1 分 组 为 (0(1”)) + 1。 首 先 把 星 运 算 符 分 组 。 由 于 星 左边 紧 挨 着 的 符号 1 
在 个 合法 的 正则 表达 式 ， 单 独 这 个 1 就 是 星 的 运算 对 象 。 其 次 把 0 和 (1”) 之 间 的 连接 分 组 ， 给 出 表 


3.1.4 习题 


和 注意， 根据 优 先 级 规则 分 组 ， 这 个 给 定 表达 式 的 语言 是 : 串 1 加 上 所 有 包含 0 后 面 跟着 任意 
式 的 语言 是 串 1 加 上 所 有 把 01 重 复 零 次 或 多 次 的 串 。 如 果 希 望 首先 对 并 分 组 ， 就 应 当 在 并 的 外 


多 个 1 (包括 0 个 ) 的 串 。 如 果 选 择 在 星之 前 对 点 分 组 ， 就 应 当 使 用 括号 ， 如 (01)* + 1。 这 个 表达 


面 加 上 括号 ， 形 成 表达 式 0(1' + 1)。 这 个 表达 式 的 语言 是 ,以 0 开头 并 且 后 面 跟 着 任意 多 个 1 的 上 申 
习题 3.1.1 写 出 表示 下 列 语言 的 正则 表达 式 : 


0 
* a) 字母 表 {a, b,c} 上 包含 至 少 一 个 a 和 至 少 一 个 b 的 串 的 集合 。 
b) 倒数 第 10 个 符号 是 1 的 0 和 1 的 串 的 集合 。 
c) 至 多 只 有 一 对 连续 1 的 0 和 1 的 串 的 集合 。 
! 习题 3.1.2 写 出 表示 下 列 语言 的 正则 表达 式 ， 
b) 0 的 个 数 被 3 整除 的 0 和 1 的 串 的 集合 。 


*a) 使 得 每 对 相 邻 的 0 都 出 现在 任何 一 对 相 邻 的 1 之 前 的 所 有 0 和 1 的 串 的 集合 。 
! 习题 3.1.3 写 出 表示 下 列 语言 的 正则 表达 式 : 


| 
a) 不 包含 101 作 为 子 串 的 所 有 0 和 1 的 串 的 集合 。 
b) 具有 相同 个 数 的 和 1， 使 得 在 任何 前 绎 中 ，0 的 个 数 不 比 1 的 个 数 多 2，1 的 个 数 也 不 比 0 的 
个 数 多 2， 所 有 这 种 0 和 1 的 串 的 集合 。 
c) 0 的 个 数 被 5 整除 且 1 的 个 数 是 偶数 的 所 有 0 和 1 的 串 的 集合 。 
: 习题 3.1.4 给 出 下 列 正则 表达 式 语言 的 自然 语言 描述 : 
* a) (1 + 5)(00 1)70”。 
b) (0 工 )000(0 + 1)”, 
c) (0 + 10)*1”, 


*! 习题 3.1.5 在 例 3.1 中 指出 ， 包 是 其 闲 包 ， 它 是 有 穷 的 两 个 语言 之 一 。 另 一 个 语言 是 什么 ? 
3.2 有 穷 自 动机 和 正则 表达 式 


对 于 描述 语言 来 说 ， 正 则 表达 式 方法 与 有 穷 自动 机 方法 是 根本 不 同 的 ， 但 这 两 种 记号 竟然 
尖 ， 就 必须 证 明 : 


表示 完全 相同 的 语言 集合 ， 即 所 谓 的 “正则 语言 >。 已 经 证 明 ， 确 定型 有 穷 目 动机 和 两 种 非 确定 
型 有 穷 自动 机 ( 带 e 转 移 与 不 带 e 转 移 ) 接受 相同 的 语言 类 。 为 了 证 明正 则 表达 式 定 义 了 相同 的 
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1. 用 这 些 自 动机 之 一 定义 的 每 个 语言 ， 也 可 以 用 正则 表达 式 来 定义 。 对 于 这 个 证 明 ， 可 以 
假设 某 个 DFA 接 受 这 个 语言 。 
2. 用 正则 表达 式 定 义 的 每 个 语言 ， 也 可 以 用 这 些 自动 机 之 一 SSE A 
来 定义 。 对 于 这 部 分 证 明 ， 最 容易 的 是 证 明 有 一 个 带 e 转 
移 的 NFA 接 受 相同 的 语言 。 
图 3-1 显 示 已 经 证 明 或 将 要 证 明 的 所 有 等 价 性 。 从 类 X 到 类 7Y 的 入 CC RE = 一 < DFA 
弧 表 示 证 明了 用 类 X 定 义 的 每 个 语言 也 可 以 用 类 7 来 定义 。 由 于 这 图 3-1 证 明正 则 语言 四 种 不 
个 图 是 强 连通 的 〈 即 从 四 个 顶点 中 每 个 都 能 到 达 任 何其 他 顶点 )， 同 记号 等 价 性 的 计划 
可 看 出 所 有 四 个 类 其 实 都 是 相同 的 。 


3.2.1 从 DFA 到 正则 表达 式 


构 半 正则 表达 式 来 定义 任意 DFA 的 语言 出 人 意料 地 富有 技巧 性 。 大 概 地 说 ， 构 造 出 描述 标记 
DFA 转 移 图 中 特定 路 径 的 串 的 集合 的 表达 式 。 但 是 只 允许 这 些 路 径 经 过 一 个 有 限 的 状态 子 集合 。 在 
这 些 表达 式 的 归纳 定义 中 , 从 描述 不 允许 经 过 任何 状态 的 路 径 ( 即 这 些 路 径 是 单个 顶点 或 单条 箭 弧 ) 
的 最 简单 表达 式 开始 ， 然 后 归纳 地 构造 让 路 径 经 过 越 来 越 大 的 状态 集合 的 表达 式 。 最 后 允许 路 径 经 
过 任何 状态 ， 即 最 终 产 生 的 表达 式 表 示 所 有 可 能 的 路 径 。 这 些 想法 出 现在 下 面 定理 的 证 明 中 。 


定理 3.4 如 果 对 于 某 个 DFA 4, 工 = ZL4)， 则 存在 一 个 正则 表达 式 R， 使 得 忆 = L(R)。 

证 明 设 对 于 茶 个 整数 n+，A4 的 状态 是 {1, 2…, n}。 无 论 4 的 状态 实际 是 什么 ， 对 于 某 个 有 穷 
的 x， 都 会 有 n 个 状态 ， 通 过 为 这 些 状态 改名 ， 可 以 以 这 种 方式 来 引用 这 些 状态 ， 好 像 这 些 状态 
束 是 前 n 个 正 整 数 。 第 一 项 也 是 最 困难 的 任务 是 构造 一 组 正则 表达 式 ， 来 描述 4 的 转移 图 中 越 来 
越 大 的 路 径 集合 。 

用 Ri 作为 正则 表达 式 的 名 字 ， 这 些 表达 式 的 语言 是 下 列 串 w 的 集合 : 使 得 w 是 A 中 从 状态 i 
到 状态 的 路 径 的 标记 ， 而 且 这 条 路 径 没 有 编号 大 于 /的 中 间 顶 点 。 注 意 ， 路 径 的 起 点 和 终点 都 不 
是 “中 间 的 "， 所 以 不 限制 和 (或 ) 要 小 于 或 等 于 k。 

图 3-2 提 示 了 在 R” 所 表示 路 径 上 的 要 求 。 其 中 ， 垂 直方 向 表示 状态 ， 从 底下 的 1 到 顶 上 的 
ns 水 平方 向 表示 沿 着 路 径 前 进 。 注 意 ， 在 这 个 图 中 显示 的 i 和 j 都 比 : 大 ,但 i 和 jj 之 一 或 二 者 都 可 


i 





图 3-2 带 有 属于 正则 表达 式 尺 的 语言 的 标记 的 路 径 
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为 了 构造 表达 式 R,”， 使 用 下 面 的 归纳 定义 ， 从 k = 0 开始 ， 最 终 到 达 k = n。 注 意 ， 当 k = n 
时 ， 在 所 表示 的 路 径 上 根本 没有 限制 ， 因 为 没有 状态 比 n 还 大 。 
基础 : 基础 是 k = 0。 由 于 所 有 状态 都 编号 为 1 或 更 大 ， 路 径 上 的 限制 是 ; 路 径 必定 根本 没有 
中 间 状 态 。 只 有 两 种 路 径 满 足 这 样 的 条 件 ; 
1. 从 顶点 (状态 ) i 到 顶点 j 的 一 条 箭 弧 。 
2. 只 包含 某 个 顶点 i 的 长 度 为 0 的 路 径 。 
如 要 i 取 j， 则 只 有 情形 (1) 是 可 能 的 。 我 们 必须 检查 这 个 DFA A， 并 寻找 这 些 输 入 符号 a 使 
得 在 符号 a 上 有 从 状态 i 到 状态 j 的 转移 。 
a) 如 果 没 有 这 样 的 符号 a， 则 Re = 儿 。 
b) 如 果 恰好 有 一 个 这 样 的 符号 as， 则 Re =a。 
0) 如 用 有 符号 au car， 都 标记 从 状态 到 状态 7 的 箭 弧 ， 则 Ro = ai + az+ … + ak。 
但 是 ， 如 果 ; = j， 则 合法 路 径 就 是 长 度 为 0 的 路 径 和 所 有 从 i 到 自身 的 环 。 长 度 为 0 的 路 径 表 
示 成 正则 表达 式 e:， 因 为 这 个 路 径 沿途 没有 符号 。 因 此 ， 把 e: 加 入 上 面 (a) 到 (c) 所 设计 的 各 种 表达 
式 中 。 也 就 是 说 ， 在 情形 (a) 下 (没有 符号 a)， 表 达 式 成 为 :在 情形 (b) 下 (一 个 符号 a)， 表 达 式 
成 为 e+ a， 在 情形 (c) 下 (多 个 符号 )， 表达 式 成 为 +a1+ a2+ … + a 
归纳 : 假设 存在 从 i 到 j 的 路 径 不 经 过 比 高 的 状态 。 有 两 种 可 能 的 情形 需要 考虑 : 
1. 这 条 路 径 根本 不 经 过 状态 k。 在 这 种 情形 下 ， 路 径 的 标记 属于 Re 的 语言 。 
2. 这 条 路 径 经 过 状态 k 至 少 一 次 。 于 是 把 路 径 分 成 几 段 ， 如 图 3-3 所 示 。 第 一 段 不 经 过 Kk 而 从 
状态 i 到 状态 k， 最 后 一 段 不 经 过 Kk 而 从 Kk 到 j， 所 有 中 间 路 段 都 不 经 过 Kk 而 从 k 到 自身 。 注 音 ， 
如 末路 径 只 经 过 状态 k 一 次 ， 则 没有 “中 间 ” 有 段 ， 只 有 从 i 到 k 的 路 径 和 从 Kk 到 j 的 路 径 。 所 
有 这 种 路 径 的 标记 的 集合 表示 成 正则 表达 式 RE?(R4"*) RD 。 也 就 是 说 ， 第 一 个 表达 式 
表示 第 一 次 到 达 状 态 k 的 路 径 部 分 ， 第 二 个 则 表示 从 k 到 自身 零 次 一 次 或 多 次 的 部 分 ， 
第 三 个 表达 式 表 示 最 后 一 次 离开 k 并 到 达 状 态 j 的 路 径 部 分 。 


ee me 
-1) pe ee 
nn 属于 用- 的 零 个 或 多 个 是 mE 
图 3-3 把 从 ;到 j 的 路 径 在 每 次 经 过 状态 的 点 上 分 自 
把 上 面 两 种 路 径 的 表达 式 组 合 起 来 ， 得 到 表达 式 
Rr RD 4 BRODY ROD 
表示 从 状态 i 到 状态 j 而 不 经 过 比 k 更 高 状态 的 所 有 路 径 的 标记 ，。 如 采 按 照 上 标 递增 的 顺序 来 构造 
这 些 表达 式 ， 则 由 于 每 个 R” 只 依赖 于 上 标 更 小 的 表达 式 ， 所 有 的 表达 式 都 在 需要 时 已 经 构造 出 
2 
最 终 对 于 所 有 ;和 7， 都 得 到 R” 。 可 以 假设 ， 状 态 1 是 初始 状态 ， 而 接受 状态 可 以 是 任意 
一 组 状态 。 自 动机 的 语言 的 正则 表达 式 ， 就 是 所 有 表达 式 Re 之 和 (并 )， 使 得 状态 j 是 接受 
状态 。 口 


a 


例 3.5 ”把 图 3-4 的 DFA 转 换 为 正则 表达 式 。 这 个 DFA 接 受 所 有 至 少 有 一 个 0 的 串 。 要 明白 为 
什么 注意 这 个 自动 机 只 要 看 到 输入 0， 就 从 初始 状态 1 进入 接受 状态 2。 这 个 自动 机 然后 在 所 有 
输入 序列 上 都 停 在 状态 2。 

1 
Start 法 0 CD 0,1 
图 3-4 接受 所 有 至 少 有 一 个 0 的 串 的 DFA 
下 面 是 定理 3.4 的 构造 中 的 基础 表达 式 。 





例如 ，Rr 有 s 项 ， 因 为 初始 状态 和 终结 状态 是 相同 的 ， 即 状态 1。 RO 有 项 1， 因 为 在 输入 1 上 有 
从 状态 1 到 状态 1 的 第 弧 。 另 一 个 例子 是 ， R2' 是 0， 因 为 从 状态 1 到 状态 2 有 带 标记 0 的 箭 弧 。 Re 
设 有 上 项 ， 因 为 初始 状态 和 终结 状态 是 不 同 的 。 第 三 个 例子 是 ，R9' = 如， 因为 没有 从 状态 2 到 状 
态 1 的 箭 弧 。 

现在 必须 做 归纳 部 分 ， 构 造 更 复杂 的 表达 式 ， 首 先 考虑 经 过 状态 1 的 路 径 ， 然 后 考虑 经 过 状 
态 1 和 2 的 路 径 ， 即 任意 路 径 。 表 达 式 局 是 定理 3.4 归 纳 部 分 给 出 的 一 般 规则 的 实例 : 

RY = RO Re( ROY RO (3-1) 

图 3-5 中 的 表 首 先 给 出 直接 代入 上 面 公式 计算 出 的 表达 式 ， 然 后 给 出 化 简 的 表达 式 ， 用 专门 的 推 
理 就 可 以 证 明 ， 化 简 的 表达 式 与 更 复杂 的 表达 式 表示 相同 的 语言 。 


| 通过 直接 代入 | 经 过 化 简 
Ee 十 1 十 (二 +1)(e 二 1)*(e++1) 
0 十 (s 十 1)(s 十 1)*0 
纪 十 Ci(s 十 1)*(e + 1) 
5 十 0 十 1 十 Cs 十 1)*0 
图 3-5 只 经 过 状态 1 的 路 径 的 正则 表达 式 


例如 ， 考 虑 Rs 。 它 的 表达 式 是 Rz + RO (RV) RY ， 把 i= 1 和 7 = 2 代入 式 (3-1) 就 得 到 这 个 表 
达 式 






为 了 理解 化 简 ， 注 意 一 般 原理 ,如 果 R 是 任意 正则 表达 式 ， 则 (se + R) = R*。 理 由 是 ， 等 式 两 
边 都 描述 了 包含 KR) 中 零 个 或 多 个 串 的 任意 连接 的 语言 。 在 这 个 例子 中 ， 有 (E + 1D)*= 1"， 注意 这 
两 个 表达 式 都 表示 任意 多 个 1。 另 外 ，(s+ D1 = 1*。 同 样 能 够 看 出 ， 这 两 个 表达 式 都 表示 “任意 

多 个 1”。 因 此 ， 原 来 的 表达 式 . R2 等 价 于 0 + 10。 这 个 表达 式 表示 包含 0 和 所 有 在 0 前 面 有 任意 多 
个 1 的 串 的 语言 。 这 个 语言 也 可 以 表示 成 简单 的 表达 式 10。 

R 的 化 简 类 似 于 刚刚 考虑 的 R9 的 化 简 。 RY 和 RS 的 化 简 依 赖 于 两 条 关于 名 如 何 运 算 的 规则 。 
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对 于 任意 正则 表达 式 R: 
1. OR = RG = 和 。 也 就 是 说 ， 包 是 连接 运算 的 索 元 〈 零 化 子 ) ， 无 论 多 从 左边 还 是 右边 与 任 
意 表达 式 连接 时 ， 结 果 都 是 名 自身 。 这 条 规则 是 正确 的 ， 因 为 要 让 一 个 串 属于 连接 的 结 
果 ， 就 必须 从 连接 运算 的 两 个 运算 对 象 中 找 出 6 只 要 有 一 个 运算 对 象 是 多 ， 就 不 可 能 
从 这 个 运算 对 象 中 找 出 串 。 
2. 纪 +R=R+ 纪 =R。 也 就 是 说 ， 纪 是 并 的 单位 元 ;只 要 作出 现在 并 运算 中 ， 结 果 就 是 另外 
那个 表达 式 。 
结 末 就 是 ， 像 儿 (e + 1)"(e + 1) 这 样 的 表达 式 可 以 换 成 @。 最 后 两 个 化 简 现 在 应 当 是 清楚 的 了 。 
现在 计算 表达 式 启 。 对 于 上 = 2 应 用 归纳 规则 ,给 出 : 
Re CR BR (3-2) 
如 采 把 图 3-5 的 化 简 表 达 式 代入 式 (3-2)， 就 得 到 图 3-6 的 表达 式 。 图 3-6 还 显示 遵循 图 3-5 描 述 的 同 
样 原理 的 化 简 。 


| 通过 直接 代入 | 经 过 化 简 
RY | 1*+1*0(e+0+1)* , 1 
1*0+1*0(e+ 0+1)*(e+0+1) 1*0(0 + 1)* 
CD+(e+0+1)(e+0+1)* OG 
E+0+1+(e+0++ (e+0+1)*(e+0+1) | (0+1)* 
图 3-6 经 过 任意 状态 的 路 径 的 正则 表达 式 


构造 与 图 3-4 的 自动 机 等 价 的 最 终 正 则 表达 式 的 方法 是 ， 取 所 有 第 一 个 状态 是 初始 状态 而 第 
二 个 状态 是 接受 状态 的 表达 式 的 并 。 在 这 个 例子 中 ，1 是 初始 状态 ，2 是 惟一 的 接受 状态 ， 只 需 
要 表达 式 R。 。 这 个 表达 式 是 10(0 + 1)*。 很 容易 解释 这 个 表达 式 。 这 个 表达 式 的 语言 包含 以 零 
个 或 多 个 1 开头 ， 然 后 有 一 个 0， 然 后 是 0 和 1 的 任意 串 的 串 。 换 句 话 说， 这 个 语言 是 至 少 有 一 个 0 
的 所 有 0 和 1 的 串 。 口 


3.2.2 通过 消除 状态 把 DFA 转 化 为 正则 表达 式 


32.1 市 把 DFA 转 化 为 正则 表达 式 的 方法 总 是 可 行 的 。 事 实 上 ， 读 者 可 能 已 经 注意 到 ， 这 个 
方法 并 不 真正 依赖 于 自动 机 是 确定 型 的 ， 同 样 可 能 应 用 到 NFA 其 至 se-NFA 上 。 但 正则 表达 式 构造 
代价 太 高 。 对 于 一 个 "状态 自动 机 ， 不 仅 要 构造 大 约 吧 个 表达 式 ， 而 且 如 果 不 化 简 表 达 式 ， 则 在 
?个 归纳 步骤 的 每 一 步 ， 表 达 式 的 长 度 平均 增加 到 4 倍 。 因 此 ， 这 些 表达 式 本 身 可 能 达到 4" 个 符 
写 的 长 度 级 别 。 : 

有 一 种 类 似 的 方法 ， 在 某 些 地 方 避免 了 重复 工作 。 例 如 ， 在 定理 3.4 的 构造 中 ， 对 于 每 个 i 和 
J 所 有 带 上 标 k 的 表达 式 都 利用 同一 个 子 表达 式 (R4*)”， 因 此 写 这 个 表达 式 的 工作 重复 了 台 次 。 

现在 要 学 习 的 构造 正则 表达 式 的 方法 涉及 消除 状态 。 当 消除 状态 s 时 ， 自 动机 中 经 过 s 的 所 
有 路 径 都 不 存在 了 。 如 果 不 打算 改变 自动 机 的 语言 ， 就 必须 在 从 g 直 接 到 p 的 箭 弧 上 包含 经 过 s 而 
从 状态 9 到 状态 p 的 路 径 的 标记 。 由 于 这 种 箭 弧 的 标记 现在 可 能 涉及 串 ， 而 不 是 单个 符号 ， 而 且 
莫 至 可 能 有 无 穷 多 个 这 样 的 串 ， 所 以 不 能 简单 地 列举 这 些 个 串 作 为 标记 。 幸 运 的 是 ， 有 一 种 简 
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单 且 有 穷 的 方法 来 表示 所 有 这 样 的 串 ; 使 用 正则 表达 式 。 

因此 ， 结 果 是 考虑 用 正则 表达 式 作为 标记 的 自动 机 。 这 种 自动 机 的 语言 是 ， 把 所 有 从 初始 
状态 到 某 个 接受 状态 的 路 径 沿途 的 正则 表达 式 连 接 起 来 形成 的 语言 的 并 。 注 意 ， 这 条 规则 与 目 
前 考虑 过 的 任何 变种 自动 机 的 语言 的 定义 都 是 一 致 的 。 每 个 符号 a 或 (车 允许 ) 都 可 看 作 正则 
表达 式 ， 其 语言 就 是 单个 囊 {a} 或 {s}。 把 这 个 事实 作为 下 一 步 描述 的 状态 消除 过 程 的 基础 。 

图 3-7 显 示 一 个 将 被 消除 的 二 般 状态 s。 假 设 s 所 属 的 自动 机 以 qi, qz;…; 如 作为 的 前 驱 状态 ， 
以 pi, pz, …, pn 作为 g 的 后 继 状态 。 有 可 能 某 些 9 和 p 是 相同 的 ， 但 是 假设 即使 有 从 5 到 其 自身 的 
环 ，s 也 不 出 现在 这 些 4 或 p 中 ， 如 图 3.7 所 示 。 在 每 个 从 一 个 g 到 8 的 箭 弧 上 ， 还 显示 了 一 个 正则 表 
达 式 ， 从 4 出 发 的 箭 弧 用 表达 式 @; 标记。 同样 ， 对 所 有 的 ;， 显 示 了 标记 从 s 到 的 箭 弧 的 正则 表 
达 式 Pi。 在 s 上 显示 了 带 标记 S 的 环 。 最后， 对 所 有 的 i 和 和 j， 在 从 g; 到 py 的 箭 弧 上 有 正则 表达 式 Ry。 
注意 ， 这 些 箭 弧 中 有 一 些 可 能 在 这 个 自动 机 中 并 不 存在 ， 在 这 种 情况 下 ， 就 让 这 个 箭 弧 上 的 表 


达 式 为 人 2。 
i 
Rj 
Cn 
91 
wo 
O ( 哺 O 
Pp 
O m O 
Or 
(qe) R 2 
os 
Ri 
图 3-7 一 个 将 被 消除 的 状态 s 
图 3-8 显 示 当 消除 状态 s 时 发 生 什么 。 删 除了 所 有 涉及 状态 s 的 箭 弧 。 作 为 补偿 ， 对 于 s 的 每 个 


前 驱 qi; 以 及 每 个 后 继 p; ， 都 引入 一 个 正则 表达 式 ， 来 表示 所 有 从 gi 出 发 到 s、 可 能 绕 s 循 环 零 次 或 
多 次 、 最 后 到 达 pj 的 路 径 。 这 些 路 径 的 表达 式 是 QS*P; 。 把 这 个 表达 式 (用 并 运算 ) 加 到 从 g; 到 
已 的 箭 弧 上 。 如 有 果 疫 有 箭 弧 9 一 六， 就 先 引 入 一 个 这 种 稍 弧 ， 上 面 带 有 正则 表达 式 C。 
从 有 穷 目 动机 构造 正则 表达 式 的 策略 如 下 : 
1. 对 于 每 个 接受 状态 4， 应 用 上 面 的 销 除 过 程 ， 产 生 一 个 等 价 的 自动 机 ， 箭 弧 上 带 有 正则 表 
达 式 标记 。 消 除 除了 gq 和 初始 状态 qo 以 外 的 所 有 其 余 状 态 。 
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2. 如 果 g 关 9， 则 剩 下 一 个 两 状态 自动 机 ， 如 图 3-9 所 示 。 可 以 用 多 种 方式 来 描述 所 接受 的 中 
的 正则 表达 式 。 一 种 方式 是 (R + SU"T)*SU"。 解 释 如 R “和 

下 ， 沿 着 标记 属于 LR) 或 LSU") 的 一 系列 路 径 ， 从 《人 

初始 状态 到 自身 任意 多 次 。 表 达 式 SU77 表 示 这 样 的 大 
路 径 : 经 过 属于 L(S) 的 路 径 到 达 接受 状态 ， 可 能 用 
标记 属于 L(U) 的 一 系列 路 径 多 次 回 到 接受 状态 ， 然 
后 用 标记 属于 L(7) 的 路 径 返回 初始 状态 。 然 后 必须 
沿 着 标记 属于 L(S) 的 路 径 ， 到 达 接受 状态 而 永 不 返 
回 初始 状态 。 一 旦 处 在 接受 状态 ， 沿 着 标记 属于 
LU) 的 路 径 ， 就 可 以 随意 地 返回 接受 状态 任意 多 次 。 
-如果 初始 状态 也 是 接受 状态 ， 就 必须 对 原来 的 自动 
机 也 执行 状态 消除 ， 去 掉 除 初始 状态 以 外 的 所 有 其 Ri + OE Eh 

余 状 态 。 这 样 做 了 之 后 ， 剩 下 一 个 单 状态 自动 机 ， 图 3-8 从 图 3.7 消 除 状态 s 的 结果 
如 图 3-10 所 示 ， 表 示 所 接受 的 串 的 正则 表 法式 是 R"。 


ee 


站 


m 





(人 


图 3-9 一 般 的 两 状态 自动 机 3-10 一 般 的 单 状 态 自动 机 
4. 所 求 的 正则 表达 式 是 对 每 个 接受 状态 用 规则 (2) 和 (3) 从 化 简 的 自动 机 得 出 的 所 有 表达 式 之 
和 (并)。 


例 3.6 ”现在 考虑 图 3-11 中 的 NFA， 接受 所 有 使 得 倒数 第 2 或 第 3 位 是 1 的 0 和 1 的 串 。 第 一 步 是 
将 其 转化 为 带 正则 表达 式 标记 的 自动 机 。 由 于 没有 执行 状态 消除 ， 所 有 要 做 的 只 是 把 标记 “0, 1” 
换 成 等 价 的 正则 表达 式 0 + 1。 结 果 如 图 3-12 所 示 。 
0,1 
Start 1 的 0,1 0,1 B 
图 3-11 接受 倒数 第 2 位 或 倒数 第 3 位 是 1 的 串 的 NFA 


0+1 


Start 1 rd © 0+1 @ 
图 3-12 ， 带 正则 表达 式 标记 的 图 3-11 的 自动 机 
首先 消除 状态 8。 由 于 这 个 状态 既 不 是 接受 状态 也 不 是 初始 状态 ， 所 以 这 个 状态 不 属于 任何 
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化 简 的 自动 机 。 因 此 ， 如 果 在 构造 对 应 于 两 个 接受 状态 的 两 个 简化 自动 机 之 前 ， 先 消除 这 个 状 
态 ， 就 能 节省 工作 量 。 

状态 B 有 一 个 前 驱 A 和 一 个 后 继 C。 就 图 3-7 的 示意 图 中 的 正则 表达 式 而 言 , Qi1= 1, Pi1=0+1， 
Rui= 名 (因为 不 存在 从 A 到 C 的 箭 弧 ),， 5 = 名 (因为 在 状态 B 上 没有 环 )。 结 果 是 ， 在 从 A 到 C 的 新 
第 弧 上 的 表达 式 为 + 1C7(0+ 了。 

为 简单 起 见 ， 首 先 消 除开 头 的 名 ， 这 个 多 在 并 运算 中 可 省 略 。 因 此 这 个 表达 式 成 为 1C*(0 + 1)。 
和 注意， 正则 表达 式 人 好 等 价 于 正则 表达 式 s， 因 为 

LO”) = {e} ULL) U LD) LD) LU. 
由 于 除 第 一 项 外 所 有 其 余 项 都 为 空 ， 就 看 出 L(Y") = {e}， 这 与 L(e) 相 等 。 因 此，18*(0 + 1) 等 价 
于 1(0 + 1)， 这 就 是 在 图 3-13 中 稍 弧 A 一 C 上 使 用 的 表达 式 .。 
0+1 


san 


10+D) 0+1 










图 3-13 消除 状态 B 


现在 必须 分 支 ， 在 不 同 的 化 简 过 程 中 消除 状态 C 和 D。 为 了 消除 状态 C， 采 用 的 机 制 与 上 面 
消除 状态 8B 的 机 制 类 似 ， 得 到 的 自动 机 如 图 3-14 所 -1 
小 。 

就 图 3-9 的 一 般 两 状态 自动 机 而 言 ， 从 图 3-14 得 start (0y MO+ DO +D © 
出 的 正则 表达 式 是 : R=0+1, 5=1(0+1) (0+1), 
T= 名 以 及 U = 名。 表达 式 U 可 换 成 E， 即 在 连接 中 被 图 3-14 带 状态 4 和 D 的 两 状态 自动 机 
消除 ， 理 由 是 B= e， 上 面 讨论 过 了 。 另 外 ， 表 达 式 SU"T 等 价 于 多， 因为 连接 项 之 一 7 是 BS。 因 此 
在 这 种 情形 下 ， 一 般 表 达 式 (R+ SUT)'SUTr 就 化 简 为 RS， 即 (0+ DD*1(0 + D+ 了 D。 非 形式 化 地 说 ， 
这 个 表达 式 的 语言 是 ; 结尾 是 1 的 任意 串 后 面 跟着 两 个 符号 ， 要 么 是 0 要 么 是 1。 这 个 语言 是 图 
3-11 的 自动 机 所 接受 的 串 的 一 部 分 ， 即 倒数 第 三 位 是 1 的 那些 串 。 

现在 再 从 图 3-13 开 始 消除 状态 D， 而 不 是 消除 状态 C。 0 
由 于 D 没 有 后 继 状 态 ， 检 查 图 3-7 说 明 箭 弧 没 有 变化 ， 消 


除了 从 C 到 D 的 舌 弧 以 及 状态 D。 得 到 的 两 状态 自动 机 如 。 >tart we @ 
图 3-15 所 示 。 ~“) 0 


这 个 自动 机 非常 类 似 于 图 3-14 的 自动 机 ， 只 有 从 初 。 图 315 消除 D 得 到 的 两 状态 自动 机 
始 状态 到 接受 状态 的 篆 弧 上 的 标记 是 不 同 的 。 因 此 ， 可 以 应 用 两 状态 自动 机 的 规则 ， 化 简 表达 
式 得 到 (0 + 1)*1(0 + 1)。 这 个 表达 式 表 示 这 个 自动 机 接受 的 其 他 类 型 的 串 : 倒数 第 二 位 是 1 的 那 
些 串 。 
剩 下 来 的 只 是 求 两 个 表达 式 之 和 ， 以 得 到 图 3-11 的 整个 自动 机 的 表达 式 。 这 个 表达 式 是 
(OQ+1)1O0+1)+(0+1)10+1)(0+1) 口 
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设 定 消除 状态 的 顺序 
在 例 3.6 中 看 到 ， 当 一 个 状态 既 不 是 初始 状态 也 不 是 接受 状态 时 ， 在 所 有 导出 的 自动 机 


中 它们 都 被 消除 了 。 因 此 ， 与 3.2.1 节 描述 的 正则 表达 式 的 机 械 生成 相 比 ， 状 态 消 除 过 程 的 
优 扣 之 一 是 ， 可 以 首先 消除 既 不 是 初始 状态 也 不 是 接受 状态 的 所 有 状态 ， 一 劳 永 逸 。 只 有 


在 需要 消除 茶 些 接 受 状态 时 ， 才 需要 开始 重复 化 简 工作 。 

即使 这 样 ， 也 可 以 把 某 些 工作 组 合 起 来 。 例 如 ， 如 果 有 三 个 接受 状态 p、g 和 rr， 就 可 以 
诅 除 p?， 然 后 分 支 来 消除 q 或 "， 因 此 分 别 产生 接受 状态 r 和 gq 的 自动 机 。 然 后 再 从 所 有 三 个 接 
受 状态 开始 ， 消 除 qg 和 rr， 来 得 到 p 的 自动 机 。 





3.2.3 把 正则 表达 式 转 化 为 自动 机 


现在 完成 图 3-1 中 的 计划 ， 证 明 : 每 一 个 对 于 某 个 正则 表达 式 R 来 说 是 L(R) 的 语言 L， 也 就 是 
对 于 某 个 e-NFA E 来 说 是 L(E)。 这 个 证 明 是 在 表达 式 R 上 的 结构 归纳 法 。 首 先 证 明 如 何 为 基础 表 
达 式 (单个 符号 、e 和 如) 构造 自动 机 。 然 后 证 明 如 何 把 这 些 自动 机 组 合成 更 大 的 自动 机 ， 来 接 
受 较 小 目 动机 接受 的 语言 的 并 、 连 接 或 闭 包 。 

构造 出 来 的 所 有 自动 机 都 是 具有 单个 粮 受 状态 的 e-NFA。 


定理 3.7 每 一 个 用 正则 表达 式 来 定义 的 语言 也 可 用 有 穷 自动 机 来 定义 。 

证 明 假设 对 于 正则 表达 式 R 来 说 ，L = L(R)。 证 明 对 于 某 个 e-NFA E 来 说 , L = L(E)， 其 中 EE 
满足 : 

1. 恰 有 一 个 接受 状态 。 

2. 没有 箭 弧 进入 初始 状态 。 

3. 设 有 租 弧 离开 接受 状态 。 
这 个 证 明 采 用 R 上 的 结构 归纳 法 ， 遵 循 3.1.2 节 给 出 的 正则 表达 式 的 递归 定义 。 


基础 : 基础 有 三 个 部 分 ， 如 图 3-16 所 示 。 在 a) 部 分 中 ， 看 到 

如 何 处 理 表达 式 s。 容 易 看 出 这 个 自动 机 的 语言 是 {ey。b) 部 分 说 -0——© 
明 对 应 于 纪 的 构造 。 显 然 没 有 从 初始 状态 到 接受 状态 的 路 径 ， 所 

以 2 是 这 个 自动 机 的 语言 。 最 后 ，c) 部 分 给 出 了 正则 表达 式 a 对 应 


的 目 动机 。 这 个 自动 机 的 语言 显然 包含 一 个 串 a， 这 也 是 Za)。 容 
归纳 : 归纳 的 三 个 部 分 如 图 3-17 所 示 。 假 设 对 于 给 定 正 则 表达 b) 


式 的 直接 子 表达 式 定理 的 命题 都 成 立 ; 也 就 是 说 ;这些 子 表达 式 


的 语言 也 是 一 些 具 有 单个 接受 状态 的 a-NFA 的 语言 。 四 种 情形 是 ， 
”1. 对 于 某 些 较 小 的 表达 式 R 和 5 来 说 ， 表达 式 是 R+ 5S， 于 是 图 这 O) 
3-17a 的 自动 机 就 适用 。 也 就 是 说 ， 从 新 的 初始 状态 开始 ， 9 


图 3-16 从 正则 表达 式 到 自动 机 
要 么 进入 R 的 自动 机 的 初始 状态 ， 要 么 进入 5 的 自动 机 的 初 的 构造 的 基础 


JJ 区。 a ER 


始 状 态 。 然 后 分 别 沿 着 由 某 个 属于 L(R) 或 属于 L(5) 的 串 标 记 的 路 径 ， 到 达 这 两 个 自动 机 之 
一 的 接受 状态 。 一 旦 到 达 R 或 5 的 自动 机 的 接受 状态 ， 就 沿 着 一 个 e 箭 弧 到 达 新 自动 机 的 接 
受 状态 。 因 此 ， 图 3-17a 中 自动 机 的 语言 是 L(R)UL(5)。 


a) 





图 3-17 正则 表达 式 到 seNFA 的 构造 中 的 归纳 步骤 
2. 对 于 某 些 较 小 的 表达 式 R 和 5 来 说 ， 表 达 式 是 RS。 连 接 运算 对 应 的 自动 机 如 图 3-17b 所 示 。 
注意 ， 第 一 个 自动 机 的 初始 状态 成 为 整个 自动 机 的 初始 状态 ， 第 二 个 自动 机 的 接受 状态 
成 为 整个 自动 机 的 接受 状态 。 想 法 是 ， 从 初始 状态 到 接受 状态 的 惟一 路 径 ， 首 先 经 过 R 的 
目 动机 ， 这 里 必须 沿 着 由 属于 L(R) 的 串 标 记 的 路 径 ， 然 后 经 过 5 的 自动 机 ， 这 里 沿 着 由 属 
于 L(5) 的 串 标 记 的 路 径 。 因 此 ， 图 3-17b 的 自动 机 中 的 路 径 是 所 有 并 且 只 有 由 属于 L(R)L(S) 


的 串 标记 的 路 径 。 
104] 。 3. 对 于 某 个 较 小 的 表达 式 R 来 说 ， 和 表达 式 是 R'。 于 是 使 用 图 3.17c 的 自动 机 。 这 个 自动 机 
允许 ， 


(a) 沿 看 带 e 标 记 的 路 径 ， 直 接 从 初始 状态 到 达 接 受 状态 。 这 条 路 径 人 允许 接受 :，s 属 于 
L(R')， 无 论 表达 式 R 是 什么 。 

(b) 一 次 或 多 次 经 过 R 的 自动 机 ， 到 达 这 个 自动 机 的 初始 状态 ， 然 后 到 达 接 受 状态 。 这 组 
路 全 允许 接受 属于 L(R)、L(R)L(R)、L(R)L(R)L(R) 等 的 串 ， 因 此 覆盖 了 L(R') 中 可 能 除 
以 外 的 所 有 的 串 ，(3a) 中 提 到 的 直接 到 达 接 受 状 态 的 箭 弧 覆盖 了 &。 
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4, 对 于 某 个 较 小 的 表达 式 R 来 说 ,表达 式 是 (R)。R 的 自动 机 也 适合 作为 (R) 的 自动 机 ， 因 为 


括号 不 改变 表达 式 所 定义 的 语言 。 
一 个 简单 的 事实 是 ， 所 构造 的 自动 机 满足 归纳 假设 中 给 定 的 三 个 条 件 ， 一 个 接受 状态 、 没 
有 进入 初始 状态 或 离开 接受 状态 的 箭 弧 。 口 


例 3.8 把 正则 表达 式 (0 + D71(00 + 了 转化 成 -NFA。 第 一 步 是 构造 0 + 1 的 自动 机 。 使 用 两 个 
根据 图 3-16c 构 造 的 自动 机 ， 一 个 在 箭 绝 上 带 标记 0， 另 一 个 带 标记 1。 然 后 用 图 3-17a 的 并 构造 把 
这 两 个 自动 机 组 合 起 来 。 结 果 如 图 3-18a 所 示 。 

下 一 步 ， 对 图 3-18a 应 用 图 3-17c 的 星 构造 。 这 个 自动 机 如 图 3-18b 所 示 。 最 后 两 步 涉及 应 用 
图 3-17b 的 连接 构造 。 首 先 ， 把 图 3-18b 的 自动 机 与 另 一 个 自动 机 连接 起 来 ， 把 另外 这 个 自动 机 设 
计 为 只 接受 串 1。 这 个 自动 机 是 图 3-16c 的 基础 构造 的 另 一 次 应 用 ， 在 箭 弧 上 带 标记 1。 注 意 ， 必 
须 构造 一 个 新 自动 机 来 识别 1， 一 定 不 能 用 作为 图 3-18a 一 部 分 的 1 的 自动 机 。 在 连接 运算 中 的 第 





图 3-18 根据 例 3.8 构 造 的 自动 机 


je 
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三 个 目 动机 是 另 一 个 0 + 1 的 自动 机 。 同 样 ， 必 须 构 造 图 3-18a 的 自动 机 的 一 个 副本 ， 一定 不 能 用 
成 为 图 3-18b 一 部 分 的 相同 副本 。 完 整 的 自动 机 如 图 3-18c 所 示 。 注 意 ， 当 删除 a 转移 后 ， 这 个 e- 
NEFA 看 上 去 就 像 图 3-15 的 简单 得 多 的 自动 机 ， 这 个 自动 机 也 接受 在 倒数 第 二 位 是 1 的 串 。 口 


3.2.4 习题 
习题 3.2.1 下 面 是 一 个 DFA 的 转移 表 : 


| 0 | 1 
cmd 2 gi 
d2 || dd | dl 
*d3 || 93 | 92 
* a) 给 出 所 有 正则 表达 式 RW" 。 注 意 : 认为 状态 q; 好 像 是 具有 整数 编号 ;的 状态 。 
*b) 给 出 所 有 正则 表达 式 RV" 。 试 着 尽量 化 简 这 些 表达 式 。 
0) 给 出 所 有 正则 表达 式 RY 。 试 着 尽量 化 简 这 些 表达 式 。 
d) 给 出 这 个 自动 机 的 语言 的 正则 表达 式 。 
* 6) 构造 这 个 DFA 的 状态 转移 图 ， 通 过 消除 状态 q,， 给 出 其 语言 的 正则 表达 式 。 
习题 3.2.2 对 下 列 DFA 重 复习 题 3.2.1， 
| 0 | 1 
dy Hu gs | 93 


g2 hd1 1 G3 
*q3" || gq2 | 1 


注意 ， 对 于 这 个 习题 来 说 ， 部 分 (a)、(b) 和 (e) 无 解 。 
习题 3.2.3 把 下 列 DFA 转 化 成 正则 表达 式 ， 用 3.2.2 节 的 状态 消除 技术 。 





习题 3.2.4 把 下 列 正则 表达 式 转化 成 带 s 转 移 的 NFA。 
* a) 01”, 
b) (0 + D01, 
c) 00(0 + 1)*, 
习题 3.2.5 消除 习题 3.2.4 的 -NFA 的 e 转 移 。(a) 部 分 的 解 出 现在 本 书 的 网 页 上 。 
! 习题 3.2.6 设 4= (QO, 了,6, qo, {9)) 是 一 个 a-NFA， 使 得 既 没 有 进入 go 的 转移 ， 也 没有 离开 gj 
的 转移 。 就 L = L(4) 而 言 ， 描 述 4 的 每 一 个 下 列 修 改 所 接受 的 语言 : 
* a) 通过 增加 从 9 到 go 的 se 转移 ， 从 4 构造 的 自动 机 。 
* b) 通过 增加 从 qo 到 每 个 从 qo 可 达 ( 沿 着 标记 包含 中 符号 和 的 路 径 ) 的 状态 的 se 转移 ， 从 4 


构造 的 自动 机 。 
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c) 通过 增加 从 每 个 能 沿 着 某 条 路 径 到 达 gy 的 状态 到 gq/ 的 e 转 黎 ， 从 A 构造 的 自动 机 。 
d) 通过 同时 做 (b) 和 (c) 的 修改 从 4 构造 的 自动 机 。 
! 习题 3.2.7 把 正则 表达 式 转 化 为 e-NFA 的 定理 3.7 的 构造 ， 有 些 地 方 可 以 化 简 。 这 里 有 三 处 : 
1. 对 于 并 运算 符 ， 不 是 构造 新 的 初始 状态 和 接受 状态 ， 而 是 把 两 个 初始 状态 合并 成 一 个 具 
备 两 个 初始 状态 的 所 有 转移 的 状态 。 同 样 ， 合 并 两 个 接受 状态 ， 让 所 有 的 转移 相应 地 进 
入 合并 状态 。 
2. 对 于 连接 运算 符 ， 把 第 一 个 自动 机 与 第 二 个 自动 机 的 接受 状态 合并 。 
3. 对 于 闭 包 运 算 符 ， 只 是 增加 从 接受 状态 到 初始 状态 的 以 及 反方 向 的 转移 。 
每 一 个 这 种 化 简 本 身 仍然 产生 正确 的 构造 ， 也 就 是 说 ， 对 于 任何 正则 表达 式 ， 得 出 的 a-NFA 接 受 
这 个 表达 式 的 语言 。 变 化 (1)、(2) 和 (3) 的 哪些 子 集 可 以 一 起 用 在 构造 中 ,对 于 每 一 个 正则 表达 式 ， 
仍然 产生 正确 的 自动 机 ? 
“1 习题 3.2.8 给 出 一 个 算法 : 输入 一 个 DFA 4， 对 于 给 定 的 z (与 4 的 状态 个 数 无 关 )， 计 算出 
4 所 接受 的 长 度 为 "的 串 的 个 数 。 这 个 算法 应 当 对 于 mn 和 A 的 状态 数 来 说 都 是 多 项 式 的 。 提 示 ; 使 
用 定理 3.4 的 构造 所 提示 的 技术 。 


3.3 正则 表达 式 的 应 用 


对 于 搜索 文本 中 模式 的 应 用 来 说 ， 正 则 表达 式 是 一 种 选择 媒介 ， 给 出 了 要 识别 模式 的 “图 
像 。 然 后 在 后 台 正 则 表达 式 被 编译 成 确定 型 自动 机 或 非 确定 型 自动 机 ， 再 通过 模拟 自动 机 来 
产生 识别 文本 中 模式 的 程序 。 本 节 考 虑 两 类 重要 的 基于 正则 表达 式 的 应 用 : 词法 分 析 器 和 文本 
搜索 。 


3.3.1 UNIX 中 的 正则 表达 式 


在 理解 应 用 之 前 ， 先 介 绍 UNIX 的 扩展 正则 表达 式 记 号 。 这 种 记号 给 出 了 许多 附加 功能 。 事 
实 上 , 这 种 UNIX 扩 展 包 含 了 某 些 特 征 , 特别 是 命名 和 引用 已 经 与 模式 匹配 了 的 前 面 的 串 的 能 力 ， 
这 实际 上 允许 识别 非 正 则 语言 。 这 里 不 会 考虑 这 些 特征 ， 而 是 仅仅 介绍 一 些 允 许 紧 凑 地 书写 复 
杂 正 则 表达 式 的 缩写 。 

对 正则 表达 式 记 号 的 第 一 项 增强 涉及 这 样 的 事实 ; 大 多 数 实际 应 用 都 处 理 ASCII 字 符 集 。 本 
书 中 的 例子 通常 使 用 小 字母 表 ， 比 如 {0, 1}。 只 存在 两 种 符号 ， 这 人 允许 书写 紧 普 的 表达 式 ， 比 
如 0 + 1 就 表示 “任意 字符 ”。 但 是 ,假如 有 128 种 字符 ， 同 样 的 表达 式 就 要 涉及 列 出 所 有 字符 ， 
这 非常 不 便于 书写 。 因 此 ，UNIX 正 则 表达 式 允 许 书写 字符 类 来 尽 可 能 紧凑 地 表示 大 的 字符 集 。 
字符 类 的 规则 是 : 

。 符 号 .〈 点 ) 表示 “任意 字符 ”。 

“序列 [cic…ax] 表 示 正 则 表达 式 


CI 十 0Q2 十 … + Aax 


这 个 记号 大 约 节省 一 半 字 符 ， 因 为 无 需 书写 + (加 号 )。 例 如 ，C 语 言 比较 运算 所 用 的 4 种 
字符 表示 成 [<>=! ] 。 


,人 -vv ww RS 人 全 压 汪汪 


“在 方 括号 之 间 规定 形 如 x 一 y 的 范围 ， 表 示 ASCII 序 列 中 从 x 到 y 的 所 有 字符 。 由 于 数字 按 顺 
序 编码 , 大 写字 母 和 小 写字 母 也 这 样 ， 所 以 只 用 很 少 输入 就 能 表示 真正 关心 的 许多 字符 类 。 
例如 ， 数 字 表示 成 [0-9]， 大 写字 母 表 示 成 [A-2]， 所 有 字母 和 数字 的 集合 表示 成 [A- 
za-z0-9]。 如 果 要 在 字符 列表 中 包含 负 号 ， 就 放 在 开头 或 结尾 ， 这 样 不 会 与 字母 范围 的 
形式 相 混 淆 。 例 如 ， 要 形成 带 符号 的 十 进 制 数 ， 所 用 的 数字 集合 以 及 点 、 加 号 和 人 负 号 等 表 
示 成 [-+.0-9]。 方 括号 或 者 在 UNIX 正 则 表达 式 中 有 特殊 音义 的 其 他 字符 ， 表 示 成 在 对 
应 字符 前 加 一 个 斜 杠 (\)。 
。 几 种 最 常见 的 字符 类 有 特殊 记号 。 例 如 : 
a) [ :digit: ] 是 十 进 制 数 字 集 合 ， 与 [0-9] 相 同 9 。 
b) [ :alpha: ] 表 示 任 何 字 母 字 符 ， 与 [A-Z2a-z] 相 同 。 
c [ :alnum: ] 表 示 数 字 和 字母 (字母 和 数字 字符 ) ， 与 [A-za-z0-91 相 同 。 
另外 ， 有 几 个 在 UNIX 正 则 表达 式 中 使 用 的 运算 符 ， 前 面 还 没有 遇 到 过 。 这 些 运算 符 不 扩大 
所 表示 的 语言 范围 ， 但 有 时 更 容易 表达 所 要 表达 的 东西 。 
1. 用 | 代替 + 来 表示 并 。 
2. 运算 ?表示 “0 个 或 1 个 "。 因 此 ，UNIX 中 R? 与 本 书 正则 表达 式 记号 中 e+ R_ 样 。 
3. 运 算 + 表示 “1 个 或 多 个 ”"。 因 此 ，UNIX 中 R+ 与 本 书 中 RR* 一 样 。 
4. 运 算 {n} 表 示 “n 个 副本 ”。 因 此 ，UNIX 中 R{5} 是 RRRRR 的 缩写 。 
注意 ，UNIX 正 则 表达 式 允 许 用 括号 来 对 子 表达 式 分 组 ， 与 3.1.2 节 描述 的 正则 表达 式 完 全 一 
样 ， 并 且 采 用 同样 的 运算 符 优先 级 (考虑 优先 级 时 ，? 、+ 和 {n} 按 * 对 待 )。UNIX 中 使 用 星 运算 
符 * (当然 不 再 是 上 标 ) 与 本 书 前 面 所 用 的 意思 相同 。 


UNIX 正 则 表达 式 的 完整 故事 
想 要 得 到 UNIX 正 则 表达 式 记 号 中 可 用 运算 符 与 缩写 的 完整 列表 的 读者 ， 可 在 各 种 命令 


的 手册 页 上 找到 这 些 列表 。UNIX 各 种 版 本 之 间 有 一 些 差别 ， 但 像 man grep 这 样 的 命令 ， 
会 给 出 grep 命 令 所 用 的 记号 ， 这 是 基本 的 。 上 顺便 说 一 下 ,“Grep” 表 示 “Global (search 
for) Regular Expression and Print”。 





3.3.2 词法 分 析 


一 项 最 时 的 正则 表达 式 应 用 ， 是 规定 称 为 “词法 分 析 器 ”的 编译 器 部 件 。 这 个 部 件 扫描 源 
程序 ， 识 别 所 有 的 记号 〈token) ， 即 在 逻辑 上 成 为 一 体 的 连续 字符 的 子 串 。 关 键 字 和 标识 符 都 是 
110| 记号 的 常见 例子 ,但 还 有 许多 其 他 例子 。 
UNIX 命 令 lex 和 GNU 版 本 的 flex 都 接受 UNIX 风 格 的 正则 表达 式 列表 作为 输入 ， 每 个 正则 
表达 式 后 面 跟着 花 括号 内 的 一 节 代 码 ， 当 词法 分 析 器 发 现 记号 实例 时 ， 代 码 指示 词法 分 析 器 如 
何 工作 。 这 样 的 工具 称 为 词法 分 析 器 生成 器 ， 因 为 把 词法 分 析 器 的 高 层 描述 作为 输入 ， 由 此 产 


日 [:dqigit:] 记 号 有 这 样 的 优点 ， 如 果 使 用 某 种 非 ASCI 编 码 ， 包 括 不 对 数字 连续 编码 的 编码 ，[ :digit : ] 仍 
然 表 示 [0123456789]， 而 [0-9] 表 示 在 0 到 9 ( 含 0 和 9) 的 编码 之 间 编 码 的 字符 。 
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生 正确 的 词法 分 析 器 函数 。 

已 经 发 现 ， 像 lex 和 flex 这 样 的 命令 非常 有 用 ， 因 为 正则 表达 式 记 号 恰好 具备 了 描述 记号 
所 需要 的 能 力 。 这 些 命令 能 够 利用 从 正则 表达 式 到 自动 机 的 转换 过 程 来 生成 有 效 的 函数 ， 把 源 
程序 分 解 成 记号 。 这 使 得 实现 一 个 词法 分 析 器 只 要 半天 工夫 ， 而 在 开发 这 些 基 于 正则 表达 式 的 
工具 之 前 ， 手 工 生成 词法 分 析 器 要 花费 数 月 时 间 。 而 且 ， 如 果 出 于 任何 理由 需要 修改 词法 分 析 
器 ， 修 改 一 两 个 正则 表达 式 常 常 就 是 简单 的 工作 ， 不 再 需要 深入 神秘 的 代码 来 改正 错误 。 


例 3.9 ”图 3-19 中 是 lex 命 令 的 部 分 输入 的 一 个 例子 ， 描 述 了 C 语 言 中 发 现 的 一 些 记 号 。 第 一 
行 处 理 关键 字 else， 动 作 是 返回 一 个 符号 常量 (在 这 个 例子 中 是 ELSE) 给 语法 分 析 器 进一步 
处 理 。 第 二 行 包含 一 个 正则 表达 式 描述 标识 符 : 一 个 字母 跟着 零 个 或 多 个 字母 或 数字 。 动 作 是 
首先 把 这 个 标识 符 输入 到 符号 表 (如 果 这 个 标识 符 还 没有 在 那里 的 话 ) ;lex 在 一 个 缓冲 区 中 
单列 出 所 发 现 的 这 个 记号 ， 所 以 这 段 代 码 确切 地 知道 发 现 了 什么 标识 符 。 最 后 ， 词 法 分 析 器 返 
回 符号 常量 ID， 在 这 个 例子 中 选择 用 ID 表 示 标 识 符 。 


else {return (ELSE) ;} 


[A-Za-z] [A-Za-z0-9]* {把 发 现 的 标识 符 输入 
到 符号 表 中 的 代码 ， 
return(ID); 

} 


{return(GE);} 


{return (ASGN) ;} 





图 3-19 lex 输 入 的 例子 


图 3-19 的 第 三 项 是 符号 >=， 一 个 双 字 符 运 算 符 。 显 示 的 最 后 一 个 例子 是 符号 =， 一 个 单字 符 
运算 符 。 在 实际 中 可 能 出 现 描述 每 一 个 关键 字 、 每 一 个 符号 和 标点 符号 〈 比 如 逗号 和 括号 ) 以 
及 各 种 常量 (比如 数 与 串 ) 的 表达 式 。 这 些 表 达 式 许多 都 是 非常 简单 的 ， 只 是 一 个 或 多 个 具体 
字符 的 序列 。 但 是 ， 有 一 部 分 带 有 一 些 标识 符 的 风格 ， 要 用 正则 表达 式 记 号 的 所 有 能 力 来 描述 。 
整数 、 浮 点 数 、 字 符 串 以 及 注释 都 是 串 集 合 的 其 他 例子 ， 都 得 益 于 像 1ex 这 样 的 命令 的 正则 表 
达 去 能力。 口 


把 一 组 表达 式 (比如 图 3-19 所 示 的 这 些 ) 转化 成 自动 机 ， 大 致 上 像 在 前 几 节 中 形式 化 地 描 
述 的 那样 来 进行 。 首 先 构造 这 些 表 达 式 的 并 的 自动 机 。 这 个 自动 机 原则 上 只 说 明 已 经 识别 出 了 
一 些 记 号 。 但 是 ， 如 果 遵 循 定 理 3.7 对 于 表达 式 并 的 构造 ， 则 这 个 seNEA 状 态 恰好 说 明 已 经 识别 
了 哪些 记号 。 

惟一 的 问题 是 一 次 可 能 识别 出 多 个 记号 ; 例如 ， 串 else 不 仅 匹 配 正则 表达 式 else， 而 且 也 
匹配 标识 符 表 达 式 。 标 准 解决 办 法 是 让 词法 分 析 器 优先 处 理 先 列 出 的 表达 式 。 因 此 ， 如 果 要 让 
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像 else 这 样 的 关键 字 成 为 保留 的 〈 不 能 用 作 标 识 符 ) ， 就 简单 地 把 这 些 关键 字 列 在 标识 符 表达 
式 的 前 面 。 z 


3.3.3 查找 文本 中 的 模式 


在 2.4.1 市 介绍 了 这 样 的 概念 ， 就 是 可 以 用 自动 机 来 有 效 地 在 大 的 库 (比如 Web) 中 查找 一 
些 单词 的 集合 。 这 样 做 的 工具 和 技术 不 像 词法 分 析 器 那样 丰富 ， 但 对 于 查找 有 趣 的 模式 来 说 ， 
正则 表达 式 记号 是 有 价值 的 。 正 如 对 于 词法 分 析 器 那样 ， 从 自然 的 描述 性 的 正则 表达 式 记 号 到 
一 种 有 效 的 (基于 自动 机 的 ) 实现 ， 这 样 的 转换 能 力 节省 了 大 量 的 脑力 劳动 。 

已 经 发 现 ， 正 则 表达 式 技术 有 用 的 一 般 问 题 是 ， 对 文本 中 模糊 定义 的 模式 类 的 描述 。 描 述 
的 模糊 性 实际 上 保证 了 不 必 一 开始 就 正确 地 描述 模式 一 一 也 许 永远 也 不 能 恰好 得 出 正确 的 描述 。 
通过 使 用 正则 表达 式 记 号 ， 只 用 很 少 的 努力 来 从 高 层 去 描述 模式 ， 在 出 错时 快速 地 修改 模式 ， 
这 些 都 变 得 容易 了 。 对 于 把 写 出 的 表达 式 转化 成 可 执行 代码 来 说 ， 正 则 表达 式 “编译 器 ”是 有 
用 的 。 

来 探讨 一 个 在 许多 Web 应 用 中 出 现 的 问题 的 扩展 例子 。 假 设 要 扫描 非常 大 量 的 Web 页 面 并 探 
测 出 地 址 。 可 能 只 是 想 建立 邮件 地 址 表 。 或 者 ， 也 许 是 在 尝试 根据 地 点 来 对 业务 进行 分 类 ， 使 
得 能 够 回答 像 “ 替 我 找 一 家 在 我 目前 位 置 10 分 钟 车 程 之 内 的 饭馆 ”这 样 的 查询 。 

具体 就 会 把 注意 力 集中 到 街道 的 地 址 上。 什么 是 街道 的 地 址 ?需要 设法 解决 这 个 问题 ， 而 
且 如 人 在 测试 软件 时 发 现 遗漏 了 某 些 情形 ， 就 需要 修改 表达 式 以 捕捉 所 遗漏 的 情形 。 首 先 ， 街 
道 地址 可 能 以 “Street” (大街 ) 或 缩写 “St.” 来 结尾 。 但 是 ， 有 些 人 住 在 “Avenues” (大 道 ) 
或 “Roads (大 路 ) 上 ， 这 些 也 可 能 在 地 址 中 有 缩写 。 因 此 ， 可 能 把 类 似 于 

Street |St\. |Avenue |Ave\. |Road |Rd\. 


这 样 的 东西 作为 正则 表达 式 的 结尾 。 在 上 述 表 达 式 中 ， 使 用 了 UNIX 风 格 的 记号 ， 用 垂直 竖 线 而 
不 是 + 作为 并 运算 符 。 还 要 注意 ， 用 前 面 一 个 反 斜 杠 来 对 点 进行 转 义 ， 因 为 在 UNIX 表 达 式 中 点 
具有 ”任意 字符 ”的 特殊 含义， 而 在 这 个 例子 中 ， 其 实 只 想 用 句点 或 “点 ”字符 来 结束 这 三 个 
缩写 。 

像 Street 这 样 的 指称 前 面 必须 有 街道 的 名 称 。 通 常 ， 这 个 名 称 是 一 个 大 写字 母 跟着 一 些小 
写字 有 母 。 可 以 用 UNIX 表 达 式 [A-z] [a-z]x 来 描述 这 个 模式 。 但 有 些 街 道 的 名 字 包 含 多 个 单词 ， 
比如 华盛顿 特区 的 Rhode Island Avenue ( 罗 得 岛 大 道 )。 因 此 ， 在 发 现 遗 漏 了 这 种 形式 的 地 址 之 
后 ， 就 可 以 把 街道 名 称 的 描述 修订 为 

"LA 21tarzZjr( [A-21Ta zo) 


士 述 表达 式 以 一 个 组 来 开头 ， 包 含 一 个 大 写字 母 和 零 个 或 多 个 小 写字 母 。 后 面 跟着 零 个 或 
多 个 组 ， 每 组 都 包含 一 个 空格 、 另 一 个 大 写字 母 以 及 零 个 或 多 个 小 写字 母 。 空 格 是 UNIX 表 达 式 
中 的 普通 字符 , 但 为 了 避免 让 上 述 表达 式 看 起 来 像 一 条 UNIX 命 令 行 中 用 空格 分 开 的 两 个 表达 式 ， 
束 要 用 引号 把 整个 表达 式 都 括 起 来 。 引 号 并 不 是 表达 式 本 身 的 一 部 分 。 

现在 ， 要 包括 门牌 号 作为 地 址 的 一 部 分 。 大 多 数 门牌 号 都 是 一 个 数字 串 。 但 有 些 后 面 跟着 
一 个 字母 ， 比 如 在 “123A Main St.” 中 。 因 此 ， 用 来 表示 门牌 号 的 表达 式 有 一 个 可 选 的 天 写字 


母 跟 在 后 面 : [0-9]+[A-2]?。 注 意 ， 用 UNIX+ 运 算 符 表示 “一 个 或 多 个 ”数字 ， 用 ?运算 符 表 
示 “ 零 个 或 一 个 ”大 写字 母 。 为 街道 地 址 开发 的 整个 表达 式 是 : 

"[0-9]+[A-2]? [A-Z2][a-z]*( [A-2][a-zZ]x*)* 

(Street|Sst\. |Avenue|Ave\. |Road |Rd\.)’ 
如 果 用 这 个 表达 式 来 工作 ， 就 会 做 得 相当 好 。 但 逐渐 会 发 现 我 们 遗漏 了 : 
: 叫 别 的 什么 而 不 是 叫 大 街 、 大 道 或 大 路 的 那些 街道 。 例如, 会 遗漏 “Boulevard”、“Place”、 
“Way” 及 其 缩写 。 
.完全 是 数字 或 部 分 是 数字 的 街道 名 称 ， 如 “42nd Street” (第 42 大 街 )。 
3. 邮政 信箱 和 乡村 投递 路 线 。 
.不 以 任何 像 “Street ”这 样 的 字样 来 结尾 的 街道 名 称 。 一 个 例子 是 硅谷 的 El Camino Real。 
作为 西班牙 语 的 “ 旺 家 大 路 "， 说 “ElI Camino Real Road” 是 多 余 的 ， 所 以 就 需要 处 理 像 
“2000 El Camino Real” 这 样 的 完整 地 址 。 

5. 所 有 还 没有 想到 的 各 种 奇怪 东西 。 读 者 能 想 出 一 些 吗 ? 
因此 ， 有 了 一 个 正则 表达 式 编译 器 ， 就 能 让 缓慢 收敛 到 一 个 完整 地 址 识别 器 的 过 程 ， 比 不 得 不 
直接 用 常规 的 程序 设计 语言 来 对 每 个 修改 去 重 写 代码 ， 更 容易 一 些 。 


Dh 


[B= 


上 


3.3.4 习题 


! 习题 3.3.1 ”给 出 一 个 正则 表达 式 ， 来 描述 所 能 想到 的 所 有 不 同形 式 的 电话 号 码 。 考 虑 国际 
写 码 以 及 不 同 国家 有 不 同位 数 的 区 号 和 本 地 电话 号 码 。 

! 习题 3.3.2 给 出 一 个 正则 表达 式 ， 来 表示 在 招聘 广告 中 可 能 出 现 的 薪水 。 考 虑 可 能 按 小 时 、 
周 、 月 或 年 发 放 的 薪水 。 这 些 薪 水 可 能 有 也 可 能 没有 $ (如 美元 ) 符号 或 其 他 单位 (如 后 面 跟 着 
的 ，K )。 可 能 有 一 个 或 多 个 邻近 的 单词 标志 着 薪水 。 提 示 : 查看 报纸 上 的 分 类 广告 或 在 线 职位 
列表 ， 来 获得 一 些 关 于 什么 样 的 模式 可 能 有 用 的 想法 。 

! 习题 3.3.3 ”在 3.3.3 贡 末尾 给 出 了 一 些 例子 ， 都 是 关于 描述 地 址 的 正则 表达 式 的 可 能 的 改进 。 
修改 那里 开发 的 表达 式 ， 以 包括 所 有 提 到 的 选项 。 


3.4 正则 表达 式 代数 定律 


例 3.5 中 看 到 ， 需 要 对 正则 表达 式 进行 化 简 ， 以 保持 表达 式 长 度 适合 处 理 。 在 那里 ， 给 出 了 
一 些 专 门 论证 ， 说 明 为 什么 可 以 把 一 个 表达 式 换 成 另 一 个 。 在 所 有 情形 下 ， 基 本 问题 都 是 ,在 
定义 相同 语言 的 意义 下 ， 这 两 个 表达 式 是 等 价 的 。 本 节 中 给 出 一 组 代数 定律 ， 把 两 个 正则 表达 
式 何 时 等 价 的 问题 提 到 更 高 的 层次 上 。 不 检查 具体 的 正则 表达 式 ， 而 考虑 以 变量 作为 参数 的 成 
对 的 正则 表达 式 。 如 果 把 两 个 带 变 量 表达 式 的 变量 换 成 任意 语言 ， 这 两 个 表达 式 的 结果 是 相同 
的 语言 ， 则 这 两 个 表达 式 是 等 价 的 。 

这 种 过 程 在 算术 代数 中 的 一 个 例子 如 下 。 说 1 + 2 = 2 + 1 是 一 个 方面 。 这 是 加 法 交换 律 的 一 
个 例子 ， 容 易 验证 ， 在 两 边 做 加 法 运算 得 到 3=3。 但 加 法 交换 律 却 包含 得 更 多 ， 这 条 定律 说 : x 
+ y=y+x， 其 中 x 和 ly 都 是 可 以 代 换 成 任意 两 个 数 的 变量 。 也 就 是 说 ， 无 论 哪 两 个 数 相 加 ， 无 论 
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以 什么 顺序 相 加 ， 都 得 到 相同 的 结 采 。 

与 算术 表达 式 一 样 ， 正 则 表达 式 有 许多 适用 的 定律 。 如 采 把 并 当 作 加 法 ， 把 连接 当 作 乘 法 ， 
则 许多 这 样 的 定律 都 与 算术 定律 类 似 。 但 有 少数 地 方 这 种 类 比 不 成 立 ， 也 有 一 些 定律 适合 于 正 
则 表达 式 ， 而 疫 有 对 应 的 算术 定律 ， 特 别 是 当 涉 及 到 闭 包 运算 符 时 。 下 面 几 节 构 成 了 主要 定律 
的 分 类 目录 。 最 后 讨论 ， 如 何 验 证 一 条 所 谓 的 正则 表达 式 定 律 是 否 真 的 是 一 条 定律 ， 即 它 对 于 
可 能 替换 变量 的 任意 语言 都 成 立 。 


3.4.1 结合 律 与 交换 律 


交换 律 是 运算 符 的 这 样 一 种 性 质 : 可 以 交换 运算 对 象 的 顺序 而 得 出 相同 的 结果 。 上 面 给 出 
了 一 个 算术 的 例子 : x +y = y + x。 结 合 律 是 运算 符 的 这 样 一 种 性 质 ， 允许 在 运算 符 被 应 用 两 次 
时 对 运算 对 象 进行 重新 分 组 。 例 如 ， 乘 法 结合 律 是 (x x y) Xz = xx(yXxz)。 这 里 是 三 条 对 于 正则 
表达 式 成 立 的 这 些 类 型 的 定律 。 
“LL+M=M+L。 该 定律 (并 的 交换 律 ) 说 : 可 以 用 任意 顺序 来 取 两 个 语言 的 并 。 
*“(L+M)+N=L+(M+N)。 该 定律 (并 的 结合 律 ) 说 : 可 以 通过 先 取 前 两 个 语言 的 并 或 者 
” 先 取 后 两 个 语言 的 并 ， 来 取 三 个 语言 的 并 。 注 意 ， 加 上 并 的 交换 律 ， 就 得 出 : .以 任意 顺序 
和 任意 分 组 来 取 任 意 一 组 语言 的 并 ， 结 果 都 是 相同 的 。 从 直观 上 说 ， 一 个 串 属于 LiUL2U 
…UL， 当 且 仅 当 这 个 捉 属 于 一 个 或 多 个 LL。 
*(LM)N = L(MN)。 该 定律 (连接 的 结合 律 ) 说 : 可 以 通过 先 连 接 前 两 个 语言 或 者 先 连接 后 
两 个 语言 ， 来 连接 三 个 语言 。 
这 个 表 中 遗漏 的 是 LM = ML, 该 “定律 ”说 连接 是 交换 的 。 但 这 条 “定律 ”是 假 的 。 
例 3.10 考虑 正则 表达 式 01 和 10。 这 些 表达 式 分 别 表示 语 言 {01} 和 {10}。 由 于 这 两 个 语言 是 


不 同 的 ， 所 以 一 般 的 定律 LM = ML 不 成 立 。 如 果 这 个 定律 成 立 ， 则 用 正则 表达 式 0 替换 L， 用 1 替 
换 M， 就 错误 地 得 出 01 = 10。 口 


.3.4.2 单位 元 与 零 元 


运算 符 的 单位 元 是 这 样 一 个 值 : 使 得 当 运 算 符 作用 到 单位 元 和 某 个 其 他 值 时 ， 结 果 就 是 那 
个 其 他 值 。 例 如 ，0 是 加 法 的 单位 元 ， 因 为 0 +x=x+0=x; 1 是 乘法 的 单位 元 ， 因 为 1 xx=xx 
1 = xz。 运 算 符 的 零 元 〈《 零 化 子 ) 是 这 样 一 个 值 ， 使 得 当 运 算 符 作用 到 零 元 和 某 个 其 他 值 时 ， 结 
琳 吏 是 这 个 零 元 。 例 如 ,0 是 乘法 的 零 元 ， 因 为 0 xx=xx0=0。 加 法 没有 零 元 。 

对 于 正则 表达 式 ， 有 三 条 涉及 这 两 个 概念 的 定律 ， 这 些 定律 列 出 如 下 : 

*+ 苑 = 工 +4= 工 。 这 条 定律 断言 : $ 是 并 运算 的 单位 元 。 

“EeL=Le=L。 这 条 定律 断言 :; e 是 连接 运算 的 单位 元 。 

“9L= Lp= 9。 这 条 定律 断言 ， J 是 连接 运算 的 零 元 。 

这 些 定律 是 化 人 简 的 有 力 工具 。 例 如 ， 如 果 有 几 个 表达 式 的 并 ， 其 中 一 些 是 9 或 已 经 化 简 为 9， 
则 可 以 从 这 个 并 中 去 掉 这 些 g。 同 样 ， 如 果 有 有 几 个 表达 式 的 连接 ， 其 中 一 些 是 或 已 经 化 简 为 s， 
则 可 以 从 这 个 连接 中 去 掉 这 些 e。 最 后 ， 如 果 有 任意 多 个 表达 式 的 连接 ， 即 使 其 中 一 个 是 pg， 则 


整个 连接 都 可 以 换 成 9。 
3.4.3 分 配 律 


分 配 律 涉及 两 个 运算 符 ， 并 断言 : 可 以 把 一 个 运算 符 下 推 ， 分 别 作用 到 另 一 个 运算 符 的 每 
个 参数 上 。 从 算术 来 的 最 普通 例子 是 乘法 对 加 法 的 分 配 律 ， 也 就 是 说 ,xxG+z)=xxXy+XxXz。 
由 于 乘法 是 交换 的 ， 所 以 乘 是 在 和 的 左边 还 是 右边 ， 这 都 是 无 关 紧 要 的 。 但 对 于 正则 表达 式 ， 
有 一 条 对 应 的 定律 却 必 须 以 两 种 形式 来 和 叙述， 因为 连接 不 是 交换 的 。 这 两 条 定律 是 : 

"LUM+N=LM+LN。 这 条 定律 是 连接 对 于 并 的 左 分 配 律 。 

。(M + 和 NL= ML+NL。 这 条 定律 是 连接 对 于 并 的 右 分 配 律 。 

我 们 来 证 明 一 下 这 条 左 分 配 律 ， 类 似 地 证 明 另 一 个 。 这 个 证 明 只 提 到 语言 ， 并 不 依赖 于 这 
些 语言 具有 正则 表达 式 。 


定理 3.11 如 果 L、M 和 NN 是 任意 语言 ， 则 
L(MUN) = LMULN 

证 明 ”这 个 证 明 类 似 于 定理 1.10 中 看 到 的 另 一 个 关于 分 配 律 的 证 明 。 需 要 先 证 明 : 一 个 串 w 
属于 LCMUN)， 当 且 仅 当 这 个 串 属于 LMULN， 

( 仅 当 ) 如 果 w 属 于 LMUN)， 则 w = xy， 其 中 x 属于 L， 而 y 属 于 M 或 N。 如 果 y 属 于 M， 则 xy 属 
于 LM， 因 此 属于 LMULN。 同 样 ， 如 果 y 属 于 N， 则 区 属于 LN， 因 此 属于 LMULN.。 

( 当 ) 假设 w 属 于 LMULN， 则 w 属 于 LM 或 LN。 首 先 假 设 w 属 于 LM， 则 w = xy， 其 中 x 属于 L， 
而 y 属 于 M。 由 于 y 属 于 M，y 也 属于 MUN。 因 此 xy 属 于 LCMUN)。 如 果 w 不 属于 LM， 则 w 肯 定 属于 
LN， 同 样 的 论证 就 证 明了 w 属 于 L(MUN)。 口 


例 3.12 考虑 正则 表达 式 0 + 01*。 可 从 这 个 并 表达 式 中 “提出 一 个 0 因子 ”， 但 首先 需要 认识 
到 ，0 本 身 就 是 0 与 某 个 东西 ( 即 e) 的 连接 。 也 就 是 说 ， 用 连接 运算 的 单位 元 定律 把 0 换 成 0s， 
给 出 表达 式 0s + 01。 现 在 ， 应 用 左 分 配 律 把 这 个 表达 式 换 成 0(s + 1”))。 如 果 进 一 步 认 识 到 ，e 属 
于 L(1”)， 就 会 注意 到 e+ 1’= 1"， 整 个 表达 式 化 简 为 01*。 口 


3.4.4 规 等 律 


如 采 把 一 个 运算 符 作 用 到 两 个 相同 的 参数 值 ， 结 果 还 是 那个 值 ， 就 说 这 个 运算 是 紧 等 的 。 
普通 算术 运算 符 都 不 是 需 等 的 ; 在 一 般 情 况 下 ，x +x 关 x 目 xxx 关 zi( 尽 管 对 于 x 的 某 些 值 ， 这 些 
等 式 成 立 ， 比 如 0 + 0 = 0)。 但 并 和 交 都 是 寡 等 运算 符 的 常见 例子 。 因 此 ， 对 于 正则 表达 式 ， 可 
以 断言 下 面 的 定律 : 

“L + 上 =L。 这 条 定律 〈 并 的 辕 等 律 ) 说 :如果 取 两 个 相同 表达 式 的 并 ， 就 可 以 用 一 个 这 种 

表达 式 来 代替 这 个 并 。 


3.4.5 与 闭 包 有 关 的 定律 
有 许多 定律 都 涉及 到 闭 包 运算 符 及 其 UNIX 变 种 + 和 ?。 这 里 列 出 这 些 定律 , 并 给 出 一 些 解释 ， 
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说 明 为 什么 这 些 定律 为 真 。 

“(LL = LL*。 这 条 定律 说 : 对 一 个 已 经 取 过 闭 包 的 表达 式 取 闭 包 ， 并 不 改变 这 个 语言 。( 人 7 
的 语言 是 通过 连接 属于 语言 二 的 串 产 生 的 所 有 的 串 。 但 这 些 串 本 身 都 是 从 忆 的 串 合 成 的 。 
因此 ， 属 于 (人 的 串 也 是 一 些 上 的 串 的 连接 ， 因 此 属于 已 的 语言 。 

*。 人 = 8。 例 3.6 中 讨论 过 ， 包 的 闭 包 只 含 串 es。 

“5 = 5。 容 易 验证 ， 通 过 连接 任意 多 个 空 串 形 成 的 惟一 的 串 就 是 空 串 本 身 。 

* 广 = LL=LL。 回忆 一 下 ,把 忆 定 义 为 L+LL+LLL+…。 而 有 =e4+L+LL+LLL+:…。 
因此 ， 

LL=Le+LL+LLL+LLLL + 

当 记 住 Le =L 时 ， 就 看 出 LL"* 和 ZL: 的 无 穷 展开 式 是 相同 的 。 这 就 证 明了 L+= LL*。L+= ZL 的 证 

明 是 类 似 的 ” 。 

“L = L*+ &。 证 明 是 容易 的 ， 因 为 L! 的 展开 式 包含 了 L' 的 展开 式 中 除 s 外 的 每 一 项 。 注 意 ， 
如 末 语 言 L 包 含 串 e， 则 附加 的 “+e” 项 是 不 必要 的 ， 也 就 是 说 ， 在 这 种 特殊 情形 下 ， 
pr Bo 

“= +L 上。 这 条 规则 其 实 就 是 ?运算 符 的 定义 。 


3.4.6 发 现 正则 表达 式 定律 


形式 化 或 非 形式 化 地 证 明了 上 述 每 一 条 定律 。 但 可 能 提出 无 穷 多 种 关于 正则 表达 式 的 定律 。 
有 没有 让 正确 定律 容易 被 证 明 的 一 般 方法 ? 事实 是 ， 一 条 定律 的 真 假 归 结 为 两 个 具体 语言 的 相 
等 性 的 问题 。 有 趣 的 是 ， 这 种 技术 与 正则 表达 式 运 算 符 紧密 相连 ， 不 能 推广 到 包含 某 些 其 他 运 
算 符 (如 交 运 算 符 ) 的 表达 式 。 

为 了 看 出 这 种 检验 如 何 起 作用 ， 我 们 来 考虑 一 条 所 谓 的 定律 ， 比 如 

(L+M)= (LMY 
这 条 定律 说 : 如 果 有 任意 两 个 语言 L 和 M， 则 取 L 和 M 的 并 的 闭 包 ， 与 取 语 言 LM'* 的 闭 包 ， 都 得 
到 相同 的 语言 ， 也 就 是 说 ， 从 Z 选 择 零 个 或 多 个 串 ， 后 面 跟着 从 M 选 择 零 个 或 多 个 串 ， 这 样 合成 
的 所 有 的 串 ， 并 且 取 这 个 语言 的 闭 包 。 

为 了 证 明 这 条 定律 ， 首 先 假设 ; 串 w 属 于 语言 Q + MD)*e 。 于 是 对 于 菜 个 k， 可 以 写 w = wi 
w…wt， 其 中 每 个 w 属于 Z 或 M。 由 此 得 出 每 个 w 属于 语言 LM*。 证 明 如 下 ， 如 果 w; 属于 L， 就 
从 Z 选 出 一 个 串 w ， 这 个 串 也 属于 L*。 不 从 M 选 出 任何 串 ， 也 就 是 说 ， 从 MM' 选 出 s。 如 果 w; 属 于 M， 
则 论证 是 类 似 的 。 一 旦 看 出 每 一 个 w; 都 属于 L'M*， 就 得 出 w 属 于 这 个 语言 的 闭 包 。 

要 完成 证 明 ， 还 要 证 明 反 方向 : 属于 (L*M")* 的 串 也 属于 (L + M)*。 省 略 这 部 分 的 证 明 ， 因 为 
我 们 的 目的 不 是 证 明 这 条 定律 ， 而 是 注意 到 正则 表达 式 的 下 述 重要 性 质 。 

通过 把 每 个 变量 都 当 作 一 个 不 同 的 符号 ， 就 把 任何 带 变量 的 正则 表达 式 都 看 作 一 个 具 休 的 


名 注意， 结果 就 是 任何 语言 都 与 自身 的 闭 包 (在 连接 运算 下 ) 相交 换 ， LL* = L*L。 这 条 规则 并 不 与 连接 运算 在 
一 般 情况 下 不 交换 这 个 事实 相 予 盾 。 
虽 为 简单 起 见 ， 把 正则 表达 式 与 其 语言 等 同 起 来 ， 避 免 在 每 个 正则 表达 式 后 面 说 “…… 的 语言 。 


正剧 表达 式 与 正 出 三 言 8]1 


正则 表达 式 ， 即 一 个 没有 变量 的 正则 表达 式 。 例 如 ， 把 表达 式 (L + M)’ 的 变量 L 和 M 分 别 换 成 符 
号 a 和 bp， 就 给 出 正则 表达 式 (a + b)。 

这 个 具体 表达 式 的 语言 指示 了 这 样 的 串 的 形式 ， 当 把 变量 换 成 语言 时 ， 这 些 串 属于 从 原 表 
达 式 所 形成 的 任何 语言 。 因 此 ， 在 对 (L + M)* 的 分 析 中 ， 要 注意 到 ， 用 一 系列 从 LL 或 M 的 选择 来 
合成 的 任意 早 w， 都 属于 语言 (L + MD)*。 通 过 查看 具体 表达 式 的 语言 L((a + b)*) (这 个 语言 显然 是 
4a 和 2 的 所 有 的 串 的 集合 ) 就 可 以 得 出 这 个 结论 。 在 一 个 这 样 的 串 当 中 ， 可 以 用 属于 L 的 任意 串 来 
标 换 < 的 任意 出 现 ， 用 属于 M 的 任意 串 来 替换 8 的 任意 出 现 ， 对 于 a 或 2 的 不 同 出 现 ， 可 能 选择 不 
同 的 串 。 把 这 些 赫 换 应 用 到 属于 (a + pb) 的 所 有 的 串 ， 就 给 出 了 通过 以 任意 顺序 连接 Z 或 W 的 串 而 
形成 的 所 有 的 串 。 

上 述 命 题 似乎 是 显然 的 ， 但 在 “正则 表达 式 以 外 的 检验 的 扩展 可 能 失败 ”的 方 框 中 指出 ， 
当 把 一 些 其 他 运算 符 加 入 到 三 种 正则 表达 式 运算 符 时 ， 这 个 命题 就 不 再 为 真 。 在 下 一 个 定理 中 
对 于 正则 表达 式 证 明 一 般 的 原理 。 


定理 3.13 ” 设 古 带 变量 请 , 2 Lr 的 正则 表达 式 。 对 于 i = 1,2,…, m， 通 过 把 5 的 每 次 出 
现 都 换 成 符号 a 形成 具体 的 正则 表达 式 C。 于 是 对 于 任意 的 语言 L, L…, Ln， 每 一 个 属于 L(E) 的 
串 w 都 可 写成 w = wiw2…wxe， 其 中 每 个 wi 都 属于 任意 的 语言 之 一 (如,)， 而 且 串 aj.a…aj 属于 语 
言 L(C)。 非 形式 化 地 说 ， 从 每 个 属于 L(C) 的 串 开始 (如 ajiaj,…a;, )， 把 每 个 aj 都 换 成 对 应 语言 L 
中 的 任意 串 ， 这 样 就 构造 出 了 L(E)。 

证 明 这 个 证 明 是 表达 式 E 上 的 结构 归纳 法 。 

基础 : 基础 情形 是 : £ 为 e、 儿 或 变量 L。 在 前 两 种 情形 下 ， 没 有 什么 要 证 明 的 ， 因 为 具体 表 
达 式 C 与 E 是 相同 的 。 如 果 E 是 变量 L， 则 L(E) = L。 具 体 表达 式 C 就 是 8， 其 中 a 是 L 对 应 的 符号 。 
因此 ，Z(C) = {a}。 如 果 在 这 一 个 串 当中 ， 用 LL 中 的 任意 串 来 替换 符号 a， 就 得 到 语言 L， 这 个 语 
言 也 是 L(E)。 

归纳 : 根据 E 的 最 终 运 算 符 ， 有 三 种 情形 。 首 先 ， 假 设 E = F + G， 即 最 终 运 算 符 是 并 。 在 这 
些 语言 表达 式 中 用 有 具体 符号 来 替换 语言 变量 ， 设 这 样 从 F 和 C 分 别 形成 的 具体 表达 式 是 C 和 D。 注 
意 ， 在 F 和 G 中 ， 都 必须 用 同一 个 符号 来 替换 同一 个 变量 的 所 有 出 现 。 于 是 从 E 得 到 的 具体 表达 
式 是 C+D, 并 且 L(C + D) = LOC) +ZCD)。 

假设 当 用 具体 语言 来 替换 E 的 语言 变量 时 ，w 是 L(B) 中 的 串 。 则 w 属 于 L() 或 L(G)。 根 据 归纳 
假设 ,分 别 从 L(C) 或 L(D) 中 一 个 具体 的 串 开 始 ， 把 符号 换 成 对 应 语言 中 的 串 ， 这 样 就 得 到 了 w。 
因此 ， 无 论 在 哪 种 情形 当中 ， 从 L(C + D) 中 一 个 具体 的 串 开始 ， 做 同样 的 用 串 代 赫 符 号 的 替换 ， 
就 构造 出 了 串 w。 

还 必须 芳 虑 有 是 FCG 或 矿 的 情形 。 但 这 些 论证 与 上 述 并 的 情形 是 类 似 的 ， 把 这 些 论证 留 给 读 
者 来 完成 。 口 


3.4.7 检验 正则 表达 式 代数 定律 


现在 ， 可 以 叙述 并 证 明 对 一 条 正则 表达 式 定 律 是 否 为 真 的 检验 了 。 对 于 已 = F 是 否 为 真 的 检 


验 〈 其 中 E 和 是 两 个 带 相 同 变量 集合 的 正则 表达 式 ) 是 ; 


a  ，w ， 0 本 人 


1. 把 每 个 变量 都 换 成 一 个 具体 符号 ， 这 样 分 别 把 E 和 FF 转化 成 具体 的 正则 表达 式 C 和 D。 

2. 检验 是 否 L(C) = L(D)。 如 果 是 ， 则 E = F 是 一 条 真 的 定律 ， 否则 ， 这 条 “定律 ”是 假 的 。 
注意 ， 直 到 4.4 节 才 看 到 对 两 个 正则 表达 式 是 否 表 示 相 同 语言 的 检验 。 但 可 用 专门 方法 来 
判定 实际 关心 的 成 对 语言 的 等 价 性 。 回 忆 一 下 ， 如 果 这 些 语言 不 相同 ， 则 给 出 一 个 反例 
(属于 一 个 语言 而 不 属于 另 一 个 语言 的 单个 串 ) 就 足够 了 。 


定理 3.14 上 述 检 验 正确 地 识别 真 的 正则 表达 式 定律 。 

证 明 要 证 明 : 对 于 替换 E 和 F 的 变量 的 任意 语言 ，L(E) = L() 当 且 仅 当 L(C) = L(D)。 

( 仅 当 ) 假设 对 于 替换 变量 的 语言 的 所 有 选择 ，L(E) = L(F)。 具 体 地 说 ， 对 每 个 变量 L， 选 
择 一 个 具体 符号 a 在 表达 式 C 和 D 中 替换 L。 于 是 对 于 这 种 选择 ，L(C) = L(E)，L(D) = L(F)。 由 于 
已 知 LE) = L(F)， 所 以 得 出 LC) = L(D)。 

( 当 ) 假设 L(C) = L(D)。 根 据 定理 3.13， 把 L(C) 和 L(D) 中 串 的 具体 符号 分 别 换 成 这 些 符 号 所 
对 应 的 语言 ， 就 分 别 构 造 出 了 L(B) 和 L(F)。 如 果 L(C) 和 L(D) 的 串 都 是 相同 的 ， 则 用 这 种 方式 构造 
出 的 两 个 语言 也 是 相同 的 ， 也 就 是 说 ，L(E) = L(F)。 口 


例 3.15 ”考虑 有 待考 察 的 定律 (CHAW) = (LM")。 如 果 分 别 把 变量 L 和 M 换 成 具体 的 符号 a 和 2b， 
束 得 到 正则 表达 式 (a + b)” 和 (ab 。 容 易 验证 ， 这 两 个 表达 式 都 表示 ac 和 2 的 所 有 的 串 的 语言 。 
因此 ， 这 些 具体 的 表达 式 表 示 相 同 的 语言 ， 这 条 定律 成 立 。 

男 一 条 定律 的 例子 是 ， 考 虑 L* = L'L"。 具 体 的 语言 分 别 是 a* 和 a*a*， 这 两 个 集合 各 自 都 是 a 的 
所 有 的 串 。 同 样 ， 发 现 这 条 定律 成 立 ， 也 就 是 说 ， 一 个 闭 包 语言 与 自身 的 连接 还 是 产生 这 个 语 


ll 


最 后 考虑 有 待考 察 的 定律 L + ML = (L + M)L。 如 果 分 别 为 变量 L 和 M 选 择 符号 a 和 bp， 就 有 两 
个 具体 的 正则 表达 式 a + ba 和 (a + b)a。 但 这 些 表 达 式 的 语言 不 相同 。 例 如 ， 串 aa 属于 后 一 个 语 
言 ， 但 不 属于 前 一 个 。 因 此 ， 这 条 有 待考 察 的 定律 为 假 。 口 


正则 表达 式 以 外 的 检验 的 扩展 可 能 失败 
考虑 一 种 包含 交 运 算 符 的 扩展 正则 表达 式 记 号 。 有 趣 的 是 ， 把 加 入 三 种 正则 表达 式 
运算 不 扩大 所 描述 的 语言 的 集合 ， 从 定理 4.8 中 会 看 到 这 一 点 。 但 是 ， 这 的 确 让 代数 定律 的 
检验 失效 了 。 


考虑 “定律 "LNMNMN = LAM， 也 就 是 说 ， 任 意 三 个 语言 的 交 等 于 前 两 个 语言 的 交 。 
这 个 “定律 ”明显 是 错 的 。 例 如 ， 设 工 = M = {d} 且 N = 儿 。 但 是 基于 变量 具体 化 的 检验 就 
不 能 发 现 这 个 差别 。 也 就 是 说 ， 如 果 把 L[、M 和 AN 分 别 换 成 符号 a、b 和 c， 就 会 检验 是 否 
{a}n{b}N{c} = {a}M{b}。 由 于 两 边 都 是 空 集合 ， 这 个 语言 等 式 成 立 ， 所 以 这 个 检验 得 出 
了 这 个 “定律 ”为 真 。 





3.4.8 习题 
习题 3.4.1 验证 下 列 关 于 正则 表达 式 的 恒等式 。 
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*aR+S=S+R, 
b)(R+S)+T=R+(S+7), 
c) (RT = R(SD), 
d) R(S + 7T) = RS + RT., 
e) (R+S)T= RT+ST, 
本 人 (三 站。 
2) (e+R)=R', 
h) RS) =(R+S) 。 
! 习题 3.4.2 证 明 或 推翻 下 列 每 个 关于 正则 表达 式 的 命题 。 
*a)(R+S)=R'+S, 
b) (RS + R) R= R(SR + R)’, 
* Cc) (RS + R) RS = (RR’S)’, 
d) (R+S)S= (RS), 
e) S(RS + S)R = RR’'S(RR'S), 
习题 3.4.3 在 例 3.6 中 得 出 了 正则 表达 式 


(OQ+ D1O0+1)+(0+1)"10+1)(0+1) 1 
用 分 配 律 得 出 两 个 不 同 但 更 简单 的 等 价 表达 式 。 122 
习题 3.4.4 在 3.4.6 节 开头 给 出 了 (EM)*= (L + MD)* 的 部 分 证 明 。 完 成 这 个 证 明 ， 证明， 凡 属 
于 (LM 的 串 也 属于 (L + M)*。 


! 习题 3.4.5 完成 定理 3.13 的 证 明 ， 处 理 正则 表达 式 E 形 如 FG 或 扩 的 情形 。 


3.5 小 结 


“正则 表达 式 : 这 种 代数 记号 恰好 与 有 穷 自动 机 描述 相同 的 语言 ,正则 语言 。 正 则 表达 式 运 
算 符 是 : 并 、 连 接 (或 “点 ”) 和 闭 包 (或 “ 星 ”)。 

“实用 正则 表达 式 : 像 UNIX 这 样 的 系统 及 其 各 种 命令 ,使 用 扩展 的 正则 表达 式 语言 ， 提 供 
了 评 多 常见 表达 式 的 缩写 。 字 符 类 允许 容易 地 表达 出 符号 集合 ， 而 像 “至 少 一 个 ”和 “至 
多 一 个 ”这 样 的 运算 符 ， 则 增强 了 通常 的 正则 表达 式 运算 符 。 

“正则 表达 式 与 有 穷 自动 机 的 等 价 性 : 用 归纳 构造 把 DFA 转 化 成 正则 表达 式 ， 其 中 构造 出 一 
些 表达 式 作 为 路 径 标 记 ， 这 些 路 径 经 过 越 来 越 大 的 状态 集合 。 另 一 种 方法 是 ， 用 状态 消除 
过 程 来 构造 DFA 的 正则 表达 式 。 反 之 ， 从 正则 表达 式 递归 地 构造 出 a-NFA， 然 后 如 有 必要 
就 把 e-NFA 转 化 成 DFA.， 

“正则 表达 式 代数 : 正则 表达 式 满足 许多 算术 的 代数 定律 , 但 有 所 不 同 。 并 和 连接 是 结合 的 ， 
但 只 有 并 是 交换 的 。 连 接 对 于 并 是 分 配 的 。 并 是 短 等 的 。 

“检验 代数 恒等式 ， 对 于 一 些 包含 变量 作为 变 元 的 正则 表达 式 ， 判 断 这 些 表 达 式 的 等 价 性 是 
否 成 立 ， 可 把 变量 换 成 不 同 的 常量 ， 检 验 所 得 语言 是 否 相 同 。 
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第 4 章 正则 语言 的 性 质 


本 章 中 我 们 将 会 探讨 正则 语言 的 性 质 ， 在 此 过 程 中 我 们 使 用 的 第 一 个 工具 是 一 个 定理 ， 它 
能 够 证 明 某 个 语言 不 是 正则 的 。 该 定理 叫 作 “ 泵 引 理 ”， 将 在 4.1 节 中 介绍 。 

正则 语言 的 一 类 很 重要 的 事实 被 称 为 “封闭 性 ”， 这 些 性 质 使 得 我 们 能 够 从 一 些 语言 出 发 ， 
通过 一 定 的 运算 ， 来 构造 能 够 识别 男 一 些 语言 的 识别 器 。 例 如 ， 两 个 正则 语言 的 交 仍然 是 正则 
语言 。 因 此 ， 给 定 能 够 识别 两 个 不 同 的 正则 语言 的 自动 机 ， 我 们 可 以 机 械 地 构造 一 个 恰好 识别 
这 两 个 语言 的 交 的 自动 机 。 由 于 这 样 构造 出 来 的 自动 机 可 能 比 给 定 的 两 个 自动 机 的 状态 都 多 ， 
因此 这 种 “封闭 性 ”可 以 作为 一 种 构造 复杂 的 自动 机 的 工具 。2.1 节 中 用 很 实质 的 方式 使 用 了 这 
种 构造 。 

正则 语言 的 另 一 类 很 重要 的 性 质 是 “判定 性 质 ” ， 通 过 学 习 这 些 性 质 使 得 我 们 能 够 给 出 用 来 
回答 关于 目 动 机 的 重要 的 问题 的 算法 。 一 个 核心 的 例子 是 用 来 判定 两 个 自动 机 是 否定 义 了 同样 
语言 的 算法 。 我 们 判定 该 问题 的 能 力 使 得 我 们 能 够 把 自动 机 “最 小 化 ”， 也 就 是 说 ， 找 到 一 个 自 
动机 ， 它 等 价 于 某 个 给 定 的 自动 机 ， 并 且 使 它 有 尽 可 能 少 的 状态 。 这 是 一 个 数 十 年 里 在 开关 电 
路 的 设计 方面 的 重要 问题 ， 原 因 是 电路 的 成 本 (电路 所 占有 的 芯片 面积 ) 趋向 于 随 着 电路 所 实 
现 的 目 动机 的 状态 数 的 减少 而 减少 。 


4.1 证 明 语 言 的 非 正 则 性 


我 们 已 经 确认 正则 语言 类 至 少 有 四 种 不 同 的 描述 方法 ， 它 们 分 别 是 DEFA 所 接受 的 语言 类 、 
NEFA 所 接受 的 语言 类 、s-NEFA 所 接受 的 语言 类 以 及 正则 表达 式 所 定义 的 语言 

然而 并 不 是 所 有 的 语言 都 是 正则 语言 。 在 本 节 中 ， 我 们 将 会 介绍 一 个 强 有 力 的 技术 ， 叫 作 
孙 引 理 ， 它 能 够 证 明 某 个 语言 不 是 正则 的 。 接 着 我 们 会 给 一 些 非 正则 语言 的 例子 。 在 4.2 节 中 
我 们 将 会 看 到 怎样 先后 使 用 泵 引 理 和 正则 语言 的 封闭 性 来 证 明 另 外 一 些 语言 不 是 正则 的 。 


4.1.1 正则 语言 的 泵 引 理 


我 们 考虑 语言 Por = {0"1" 172>1}。 这 个 语言 包含 所 有 如 下 形式 的 串 : 01, 0011, 000111 等 等 ， 
也 就 是 有 一 个 或 多 个 0 后 面 跟着 相同 数目 的 1 所 构成 的 串 。 我 们 将 要 证 明 Lol 不 是 正则 语言 。 一 个 
徘 直觉 得 到 的 证 据 是 : 如 果 Zo: 是 正则 的 ， 那 么 Zi 就 是 某 个 DFA A 的 语言 。 该 自动 机 有 若干 个 状 
态 ， 比 如 说 有 k 个 状态 。 想 像 一 下 ， 这 个 自动 机 接收 由 k 个 0 组 成 的 串 作 为 输入 。 这 个 自动 机 处 在 
分 别 消耗 了 输入 的 k+ 1 个 不 同 前 绎 e, 0, 00, …, 0 后 的 某 个 状态 ， 因 为 它 总 共 只 有 xk 个 不 同 状 态 ， 
所 以 由 饮 巢 原理 可 知 在 它 读 入 了 其 中 两 个 不 同 的 前 缀 比如 0 和 0/ 之 后 A 一 定 处 在 同一 个 状态 gq。 

然而， 假设 在 读 入 了 i 或 者 j 个 0 之 后 ， 自 动机 A 开始 接收 1 作为 输入 。 当 接收 了 i 个 1 之 后 ， 如 
末 前 面 它 接收 了 i 个 0， 那 么 它 必 须 接受 ， 否 则 ， 如 果 前 面 它 接收 了 j 个 0， 它 必须 不 接受 。 因 为 在 
开始 读 入 1 时 它 处 在 的 状态 是 g， 因 此 它 无 法 “ 记 住 ”刚才 接收 的 是 i 个 0 还 是 j 个 0， 因 此 我 们 可 以 


~ 
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昌 弄 ”4 从 而 使 它 犯 错误 : 接受 本 不 该 接受 的 或 者 没有 接受 本 应 该 接受 的 。 
上 面 的 论述 是 非 形式 化 的 ， 但 我 们 可 以 使 它 更 加 准确 。 但 是 ， 可 以 使 用 一 个 更 一 般 的 结果 
来 得 到 与 上 面 同样 的 结论 , 即 语言 Lo 不 是 正则 的 。 这 个 更 一 般 的 结果 如 下 。 


定理 4.1 (正则 语言 的 泵 引 理 ) 设 L 是 正则 语言 ， 则 存在 与 L 相 关 的 常数 满足， 对 于 任何 L 
中 的 串 风 如 果 Iwl>m， 则 我 们 就 能 够 把 w 打 断 为 三 个 串 w =xyz 使 得 : 

1.y 和 2。 

2. lxyl' < 

3 Nt 串 xyz 也 属于 LL。 

也 就 是 说 ， 我 们 总 能 够 在 离 w 的 开始 处 不 太 远 的 地 方 找到 一个 非 空 的 中 然后 可 以 把 它 作 
为 “ 泵 "， 也 就 是 说 ， 重 复 y 任 意 多 次 ,或 者 去 掉 它 (k = 0 的 情况 ) ， 而 所 得 到 的 结果 串 仍 然 
属于 民 。 

证 明 ”假设 7 是 正则 的 。 那 么 对 于 某 个 DFA 4, 工 = L(4)。 假 设 4 有 n 个 状态 。 考 虑 长 度 不 小 
于 ?的 串 wis aiqz…an， 其 中 必 关 7 且 每 个 w 都 是 输入 符号 。 对 于 i = 0, 1,…, nn 定义 状态 p， 
为 6(q,,ara;…a)， 其 中 6 是 4 的 转移 函数 ，gqo 是 4 的 初始 符号 。 也 就 是 说 ,pi 是 当 4 读 入 了 w 的 前 i 
个 符号 后 所 处 的 状态 。 注意 po = go。 

由 鸟巢 原理 ， 对 于 ; = 0, 1,…;n， 相 应 的 n+1 个 pi; 不 可 能 全 都 不 同 ， 因 为 总 共 只 有 n 个 不 同 的 
状态 因此， 我 们 能 够 找到 两 个 不 同 的 整数 lj， 满足 0 < i<j < n， 使 得 p; =pj。 现在， 我 们 就 
可 以 把 w 打 断 为 w = xyz 如 下 : 

1.X = aid2***di, 

2.y= di+1di+2'""djo 

3:2 = 1d) 42 "amo 

也 就 是 说 ，x 把 我 们 带 到 p; 一 次 ，y 把 我 们 带 离 pi 后 再 带 回 p; (因为 p; 也 就 是 pj)， 然 后 z 是 w 剩 
下 的 部 分 。 这 些 串 和 状态 之 间 的 关系 如 图 4-1 所 示 。 注 意 ， 在 i = 0 的 情况 ，x 可 以 为 空 。 同 样 如 果 
j=n=m，z 也 可 以 为 空 。 然 而 ，y 不 可 以 为 空 ， 因 为 ;严格 小 于 j。 


图 4- 每 个 至 少 与 状态 数 一 样 长 的 串 一 定 会 导致 一 个 重复 的 状态 


现在 ， 考 虑 当 自动 机 4 接收 输入 zx z 时 所 发 生 的 事 ， 其 中 十 任 何 大 于 或 等 于 0 的 整数 。 如 果 
k= 0， 则 该 自动 机 从 初始 状态 96 ( 即 Po) 出 发 ， 读 入 输入 xz 后 到 达 状 态 总 ， 因 为 六 也 就 是 记 ， 所 以 
4 一 定 在 读 入 输入 z 后 从 pi 到达 图 4-1 中 的 接受 状态 ， 因 此 A 接受 xz。 

如 采 k > 0， 则 4 在 输入 x 下 从 go 走 到 p;:， 然 后 在 输入 y 下 从 p; 到 p; 转 上 圈 ， 然后 在 输入 z 下 走 
到 接受 状态 。 因 此 ， 对 于 任何 k 二 0，xytz 也 被 A 所 接受 ， 即 xyz 属 于 LL。 口 


4.1.2 和 泵 引 理 的 应 用 


我 们 来 看 一 些 如 何 应 用 泵 引 理 的 例子 。 在 每 个 例子 中 ， 我 们 会 给 出 一 个 语言 ， 然 后 用 泵 引 
理 来 证 明 该 语言 不 是 正则 的 。 


把 泵 引 理 当 作 对 抗 赛 


回忆 一 下 在 1.2.3 节 中 的 讨论 ， 当 时 我 们 指出 : 如 果 一 个 定理 的 陈述 中 含有 多 个 交替 的 
“所 有 ”和 “存在 ”量词 ， 那 么 我 们 可 以 把 该 定理 看 作 一 场 在 两 个 选手 之 间 的 比赛 。 泵 引 
理 就 是 这 种 形式 的 定理 的 一 个 很 重要 的 例子 ， 原 因 是 它 的 确 包含 了 四 个 不 同 的 量词 :“ 对 
于 所 有 正则 语言 L， 存 在 n 满 足 : 对 于 所 有 工 中 的 串 w， 如 果 Iwl>z， 那 么 存在 xyz 等 于 w， 使 
得 ……。 ”下 面 我 们 将 看 到 把 泵 引 理 当 作 对 抗 赛 的 应 用 : 


1. 选手 1 选择 一 个 想 要 证 明 非 正则 的 语言 L。 

2. 选手 2 选择 n， 但 选手 1 并 不 知道 a 是 什么 ， 因 此 选手 1 必须 考虑 任何 可 能 的 n。 

3. 选手 1 选择 w， 它 可 以 与 相关 ， 同 时 长 度 至 少 是 n。 

4. 选手 2 把 w 分 成 x, y 和 z， 同 时 满足 和 泵 引 理 中 规定 的 限制 条 件 ，y 关 上 以 及 lxyl 和 za。 并 且 
选手 2 并 不 需要 把 x, y 和 z 是 什么 告诉 选手 1， 虽 然 它们 必须 满足 限制 条 件 。 

5. 如 来 选手 1 能 够 选择 k 使 得 xy*z 不 属于 LL， 其 中 k 可 以 是 n,x,y 和 z 的 函数 ， 那 么 他 就 “ 赢 
得 ”了 这 场 比 赛 。 


例 4.2 ”下面 来 证 明 包 含 相同 数目 的 0 和 1 (无 论 按 照 何 种 顺序 ) 的 所 有 串 所 构成 的 语言 Ze 不 
古 正则 的 。 根 据 关 于 “把 泵 引 理 当 作 对 抗 赛 ” 的 方 框 中 所 描述 的 “二 人 比赛 ”的 形式 ,我 方 将 
作为 选手 1， 必 须 对 付 选 手 2 所 做 的 任何 选择 。 假 设 根 据 泵 引 理 ， 如 果 L。s 是 正则 的 ， 则 n 是 必然 存 
在 的 那个 常数 ， 即 “选手 2” 选 择 了 n。 我 方 选择 w = 0"1"， 也 就 是 说 ， 选 择 n 个 0 后 面 跟着 n 个 1， 
这 个 串 肯 定 属 于 Zeo。 

现在 ， 选手 2 把 我 们 的 w 分 成 tyz。 我 们 只 知道 ?和 关 s， 以 及 bol<m。 然 而 ， 这 些 信息 是 非常 
有 用 的 ， 我 们 可 以 “赢得 ”这 场 比 赛 ， 方 法 如 下 。 因 为 kyl<n， 并 且 xy 是 处 在 w 中 前 半 段 ， 所 以 
可 知 x 和 ly 都 只 由 0 构成 。 泵 引 理 说 : 如 果 Loy 是 正则 的 话 ， 那 么 xz 属 于 Lg。 这 是 泵 引 理 中 k= 0 时 的 
结论 ”。 然 而 ， 允 有 n 个 1， 因 为 w 中 所 有 的 1 都 在 z 中 。 但 是 xz 中 的 0 不 到 nn 个， 因为 去 掉 了 y 中 的 0， 
而 由 y 去 8 可 知 在 x 和 lz 中 总 共有 不 超过 n 一 1 个 0。 因 此 ， 只 要 假设 Li 是 正则 语言 ， 就 能 证 明 一 个 已 


知 错误 的 事实 ， 即 xz 属 于 Lows。 这样 就 用 反 证 法 证 明了 ZL, 不 是 正则 语言 的 事实 。 口 ， 


例 4.3 ”证 明 只 由 1 构成 且 长 度 为 素数 的 所 有 串 所 构成 的 语言 Zr 不 是 正则 语言 。 假 设 它 是 ， 
那么 存在 满足 泵 引 理 的 条 件 的 常数 上， 考虑 某 个 素数 p>z + 2 (这 样 的 素数 必定 存在 ， 因 为 有 无 
穷 多 个 素数 )， 设 w = 1?。 

根据 泵 引 理 ， 我 们 可 以 把 w 打 断 为 w = xyz， 且 满足 y 冯 Ee 和 xyl<n。 设 byl = m， 则 zl = p 一 m。 
现在 考虑 串 xyr"z， 由 泵 引 理 知 如果 Ly, 真 是 正则 语言 ， 那 么 该 串 一 定 属于 Ly,。 然 而 ， 


日 在 下 面 要 注意 ， 如 果 选 取 上 = 2， 或 者 任何 不 是 1 的 任何 值 K， 也 都 可 以 完成 证 明 。 
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xy zl = lxzl + (p—myl=p—m+ Pp—mm= (m+1)p—m) 
这 就 是 说 xyr "zl 不 太 可 能 是 素数 ， 因 为 它 有 两 个 因子 m + 1 和 p 一 m。 不 过 我 们 还 是 需要 验证 
这 两 个 因子 都 不 是 1， 否 则 (m + 1) 一 还 有 可 能 是 素数 。 由 y 关 2 可 知 m 宇 1， 因 而 可 知 m+ 1> 1。 
同样 由 m= byl<kxyl<n 可 知 m<n， 又 由 所 选 的 p 满 足 p>n+2 可 知 p 一 m > 1， 因 此 , p 一 m 之 2。 
我 们 再 一 次 地 通过 首先 假设 所 讨论 的 语言 是 正则 的 ， 接 着 推出 某 个 本 不 属于 该 语言 的 串 根 
据 录 引 理 却 必 须 属于 该 语言 的 矛盾 ， 从 而 得 出 ,不 是 正则 语言 的 结论 。 加 


4.1.3 习题 


习题 4.1.1 证 明 下 列 语言 都 不 是 正则 的 : 
a) {0" 1"1n 宇 1}。 该 语言 中 的 串 是 由 若干 个 0 后 面 跟着 相同 数目 的 1 构成 的 ， 也 就 是 我 们 在 本 
开始 时 非 形式 化 地 考虑 的 语言 Pit。 在 这 里 ， 你 应 该 用 和 泵 引 理 来 证 明 。 
b) 所 有 括号 匹配 的 串 的 集合 。 这 些 串 都 由 “(” 和 “)” 构 成 ， 并 且 都 可 能 出 现在 正确 形式 
的 算术 表达 式 中 。 
* Cc) {0"10" | n> 1}, 
d) {0"1”2"1m 和 和 n 是 任意 整数 }。 
e) {0°l™ | nssm, 
f) {0"1? 1n> 1}, 
! 习题 4.1.2 证 明 下 列 语言 都 不 是 正则 的 : 
* a) {0"1n 是 完全 平方 数 }。 
b) {0"1n 是 完全 立方 数 }。 
c) {0"17 是 2 的 需 }。 
d) 由 0 和 1 构成 的 其 长 度 是 完全 平方 数 的 串 的 集合 。 
e) 由 0 和 1 构成 的 ww 形式 的 串 的 集合 ， 也 就 是 某 个 串 重复 的 串 集 合 。 
f) 由 0 和 1 构成 的 ww 形式 的 串 的 集合 ,也 就 是 由 某 个 串 后 面 跟着 它 的 反 转 所 构成 的 串 的 集合 。 
(一 个 串 的 逆 的 形式 化 定义 见 4.2.2 节 。) 
8) 由 0 和 1 构成 的 ww 形式 的 串 的 集合 ， 其 中 交 是 把 w 中 所 有 的 0 都 换 成 1 同时 把 所 有 的 1 都 换 
成 0 而 得 到 的 串 ， 例 如 ，011= 100 ， 因 此 011100 是 该 语言 中 的 一 个 串 。 
h) 所 有 由 0 和 1 构成 的 wl" 形 式 的 串 的 集合 ， 其 中 w 是 由 0 和 1 构成 的 长 度 为 z 的 串 。 
!! 习题 4.1.3 证 明 下 列 语言 都 不 是 正则 的 : 
a) 所 有 满足 以 下 条 件 的 串 的 集合 : 由 0 和 1 构成 ， 开 头 的 是 1， 并 且 当 我 们 把 该 串 看 作 是 一 个 
整数 时 该 整数 是 一 个 素数 。 
b) 所 有 满足 以 下 条 件 的 0i1i 形 式 的 串 的 集合 : Ij 的 最 大 公约 数 是 1。 
: 习题 4.1.4 当 我 们 想 要 对 一 个 正则 语言 使 用 泵 引 理 时 , “对手 获 胜 ”， 所 以 我 们 无 法 完成 证 
明 过 程 。 给 出 当 我 们 选择 如 下 语言 作为 L 时 出 问题 的 地 方 : 
* a) 空 集 。 
* b) {00, 11}, 
* Cc) (00 + 11)”, 
d) 01°0*1, 


4.2 正则 语言 的 封闭 性 


在 本 市 中 ， 我 们 将 会 证 明 几 个 如 下 形式 的 定理 :“ 如 果 某 些 语 言 是 正则 的 ， 并 且 某 个 语言 L 


是 从 它们 出 发 经 过 茶 些 运算 (例如: L 是 两 个 正则 语言 的 并 ) 所 得 到 的 语言 ， 那 么 L 也 是 正则 的 ”。 
这 些 定理 也 叫 作 正则 语言 的 封闭 性 ， 原 因 是 它们 指出 了 正则 语言 类 在 定理 中 提 到 的 运算 下 是 封 
闭 的 。 封 闭 性 表达 了 如 下 思想 :只 要 某 个 (或 某 些 ) 语言 是 正则 的 ， 那 么 某 些 相关 的 语言 也 是 
正则 的 。 关 于 这 些 封闭 性 的 证 明 过 程 也 是 很 有 趣 的 例证 ， 它 们 展示 了 正则 语言 的 不 同 的 等 价 表 
示 法 〈 目 动机 和 正则 表达 式 ) 在 我 们 理解 正则 语言 类 时 起 到 的 相辅相成 的 作用 ， 原 因 是 每 一 种 
表示 法 都 会 在 证 明 某 个 封闭 性 时 远 比 其 他 的 表示 法 方便 好 用 。 下 面 是 正则 语言 的 一 些 主 要 的 封 
闭 性 : 

1. 两 个 正则 语言 的 并 是 正则 的 。 

2. 两 个 正则 语言 的 交 是 正则 的 。 

3. 正则 语言 的 补 是 正则 的 。 

4. 两 个 正则 语言 的 差 是 正则 的 。 

5. 正则 语言 的 反 转 是 正则 的 。 

6. 正则 语言 的 闭 包 ( 星 ) 是 正则 的 。 

7. 几 个 正则 语言 的 连接 是 正则 的 。 

8. 正则 语言 的 同 态 《用 串 来 代替 符号 ) 是 正则 的 。 

9. 正 则 语言 的 逆 同 态 是 正则 的 。 


4.2.1 正则 语言 在 布尔 运算 下 的 封闭 性 


首先 的 三 个 封闭 性 是 布尔 运算 : 并 ， 交 和 补 。 
1. 如 采 L 和 MM 是 字母 表 三 上 的 语言 ， 则 ZUM 是 由 所 有 属于 Z 或 属于 1 或 同时 属于 两 者 的 串 构 
成 的 语言 。 

2. 如 末 L 和 M 是 字母 表 > 上 的 语言 ， 则 LNM 是 由 所 有 同时 属于 L 和 M 的 串 构 成 的 语言 。 

3. 如 采 L 是 字母 表 > 上 的 语言 ， 则 ZL 的 补 工 是 由 所 有 集合 3* 中 不 属于 L 的 串 构 成 的 语言 。 

正则 语言 在 以 上 三 种 布尔 运算 下 都 是 封闭 的 。 然 而 三 者 的 证 明 却 采用 非常 不 同 的 方法 ， 下 
面 我 们 将 会 分 别 看 到 。 

4.2.1.1 并 运算 的 封闭 性 


定理 4.4 如 果 L 和 M 都 是 正则 语言 ， 则 LUM 也 是 。 
证 明 ”该 定理 的 证 明 很 简单 。 由 于 L 和 MM 都 是 正则 的 ， 所 以 它们 都 有 正则 表达 式 ， 比 如 L = 
L(R), M=ZL(S)。 则 由 正则 表达 式 的 + 运算 符 的 定义 可 知 LUM = LL(R + 5)。 加 


4.2.1.2 补 运算 的 封闭 性 


用 语言 的 正则 表达 式 表 示 法 来 证 明 关于 并 运算 的 定理 是 很 容易 的 。 然 而 ， 接 下 来 要 考虑 的 
运算 是 补 运算 。 你 知道 怎样 把 一 个 正则 表达 式 变 成 另外 二 个 定义 了 它 的 补 语言 的 正则 表达 式 


133 


90 第 4 草 


吗 ? 其 实 我 们 也 不 知道 。 不 过 ， 事 实 上 这 是 可 以 做 到 的 ， 因 为 在 定理 4.5 中 我 们 将 会 看 到 从 一 个 
DFA 出 发 来 构造 男 一 个 接受 补 语言 的 DFA 是 很 容易 的 。 因 此 ， 从 一 个 正则 表达 式 出 发 ， 我 们 可 
以 以 如 下 的 方式 来 找到 其 补 语言 的 正则 表达 式 : 

1. 把 该 正则 表达 式 转 换 一 个 -NFA。 

2. 用 子 集 构造 法 把 该 e-NFA 转 换 成 一 个 DFA。 

3. 把 该 DFA 的 接受 状态 取 补 。 

4. 把 取 补 后 的 DFA 用 3.2.1 布 或 3.2.2 市 中 的 构造 方法 来 变 回 成 为 一 个 正则 表达 式 。 


假如 语言 的 字母 表 不 同 会 怎样 


当 我 们 对 两 个 语言 L 和 M 取 并 和 交 时 ， 它 们 可 能 有 着 不 同 的 字母 表 。 例 如 ， 有 可 
能 工 C{4,b}* 而 和 也 ,c,d}* 。 然 而 ,如果 语 言 L 由 中 的 符号 组 成 的 串 构 成 ， 那 么 我 们 也 
可 以 把 L 看 作 以 任何 的 超 集 作为 字母 表 上 的 语言 。 这 样 ， 比 如 我 们 可 以 把 和 蕊 都 看 作 字 
母 表 {a, b, c, 作 上 的 语言 。 而 到 中 的 串 不 含 符号 c 和 d 这 件 事情 其 实 是 无 关 的 ,五 的 串 中 不 含 
4 也 同样 。 

类 似 地 ， 当 对 于 某 个 字母 表 1 来 取 语言 L 的 补 时 , 工 是 3*1 的 一 个 子 集合 ， 还 可 以 选择 
相对 于 某 个 字母 表 了, 取 补 ， 23 是 1 的 超 集 。 如 果 这 样 做 ， 那 么 所 取 到 的 L 的 补 就 是 35 一 
L， 也 就 是 说 L 对 于 2 的 补 〈 的 所 有 串 中 ) 包括 了 所 有 这 样 的 3*, 中 的 串 ， 该 串 中 至 少 有 一 
个 属于 22 但 不 属于 21 的 符号 。 假 如 我 们 对 于 31 取 L 的 补 的 话 ， 那 么 所 有 包括 ;一 1 中 
的 符号 的 串 就 都 不 在 工 中 了 。 因 此 ， 为 了 更 加 严格 ， 我 们 应 该 在 取 补 时 明确 指出 所 对 应 的 
字母 表 。 然 而 ， 有 时 所 指 的 字母 表 是 很 显而易见 的 ， 比 如 Z 是 由 一 个 自动 机 定义 的 ， 而 自 
动机 的 描述 中 会 包含 字母 表 。 因 此 ， 我 们 经 常会 直接 取 “ 补 ”而 不 明确 指出 字母 表 。 


正则 运算 下 的 封闭 性 


证 明正 则 语言 在 并 运算 下 是 封闭 的 异常 简单 ， 原 因 是 并 运算 是 定义 正则 表达 式 的 三 个 
运算 之 一 。 定 理 4.4 中 的 思想 同样 可 以 用 于 封闭 性 运算 和 连接 运算 ， 也 就 是 说 ; 

*。 如 琳 L 和 M 都 是 正则 语言 ， 则 LM 也 是 。 

* 如 采 L 是 正则 语言 ， 则 ZL 也 是 。 





定理 4.5 “如 果 Z 是 字母 表 卫 上 的 正则 语言 ， 则 五 = 3* 一 也 是 正则 语言 。 

证 明 设 = LA4)， 其 中 4= (2, 2,6, go; 也 是 某 个 DEA。 则 =L(B)， 其 中 B 是 DFA(QO, 2, 6， 
qo, Q 一 F)。 也 就 是 说 ，B 和 A 很 类 似 ， 但 是 4 的 接受 状态 都 是 8B 的 非 接 受 状态 ， 反 之 亦 然 。 因 此 w 
属于 L(B) 当 且 仅 当 56(gq,,w) 属 于 Q 一 F， 而 后 者 成 立 当 且 仅 当 w 不 属于 L(4)。 口 


注意 在 上 面 的 证 明 中 6(q,,w) 总 是 某 个 状态 这 点 很 重要 ， 也 就 是 说 ，Ah 中 没有 缺少 的 转移 。 
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如 果 有 ， 某 些 串 就 有 可 能 既 不 能 导致 4 进入 接受 状态 ， 也 不 能 导致 4 进入 非 接受 状态 ， 这 样 就 会 
有 某 些 串 由 于 既 不 属于 L(4) 也 不 属于 L(B) 而 遗漏 。 幸 运 的 是 ， 我 们 对 于 DFA 的 定义 是 在 每 个 状态 
时 对 于 2 中 的 每 个 符号 都 有 一 个 转移 ， 因 此 每 个 串 就 会 或 者 导致 4 进入 F 中 的 状态 ， 或 者 导致 A 
进入 0 一 F 中 的 状态 。 


例 4.6 ” 设 A 是 图 2-14 中 的 自动 机 。 记 起 DFA 4 恰好 接受 所 有 以 01 结 尾 的 0 和 1 组 成 的 串 ， 用 正 
则 表达 式 的 形式 来 描述 就 是 L(4) = (0 + 1 01。 因 此 L(4) 的 补 就 是 所 有 不 以 01 结 尾 的 0O 和 1 组 成 的 
串 。 图 4-2 给 出 了 {0, 1》* 一 L(4) 的 自动 机 ， 它 与 图 2-14 基 本 相同 ， 但 是 把 接受 状态 变 为 非 接 受 状 
态 ， 再 把 两 个 非 接受 状态 变 为 接受 状态 。 口 





图 4-2 接受 语言 (0 + 1)*01 的 补 的 DFA 


例 4.7 在 本 例 中 ,我们 将 用 定理 4.5 来 证 明 某 个 特定 的 语言 不 是 正则 的 。 在 例 4.2 中 我 们 证 明 
了 由 相同 个 数 的 0 和 1 构成 的 串 组 成 的 语言 Lee 不 是 正则 的 ， 该 证 明 直 接 使 用 了 泵 引 理 。 现 在 考虑 
由 不 同 个 数 的 0 和 1 构成 的 串 组 成 的 语言 M。 

很 难 直 接 使 用 泵 引 理 证 明 M 不 是 正则 的 。 直 观 地 ， 如 果 我 们 从 某 个 M 中 的 串 w 出 发 ， 把 它 打 
断 为 w = xyz， 并 且 把 y 当 作 “ 泵 *"， 我 们 发 现 y 本 身 可 能 是 某 个 像 01 似 的 由 相同 个 数 的 0 和 1 组 成 的 
串 。 如 果 这 样 的 话 ， 就 不 可 能 存在 k 使 得 xy:z 中 有 不 同 个 数 的 0O 和 1， 因 为 xyz 中 的 0O 和 1 的 数目 不 同 ， 
而 当 我 们 把 y 当 作 “ 泵 ”时 0 和 1 的 个 数 的 改变 量 总 是 相等 的 。 因 此 ， 我 们 永远 无 法 使 用 泵 引 理 来 
得 出 与 M 是 正则 的 假设 相 予 盾 的 结论 。 

然而 ，M 确 实 不 是 正则 的 。 原 因 是 M = Lz。 因为 补 的 补 就 是 原来 的 集合 ， 因 此 得 出 Le，= 
M 。 如 果 M 是 正则 的 ， 则 根据 定理 4.5 可 知 Zes 也 是 正则 的 。 但 是 我 们 已 经 知道 Ley 不 是 正则 的 ， 
因此 我 们 就 用 反 证 法 证 明了 M 也 不 是 正则 的 。 口 


4.2.1.3 交 运 算 的 封闭 性 
现在 让 我 们 来 考虑 两 个 正则 语言 的 交 。 实 际 上 我 们 只 需要 做 很 少 的 事情 ， 因 为 这 三 个 布尔 
运算 不 是 相互 无 关 的 。 一 旦 我 们 有 办 法 来 完成 补 和 并 ， 我 们 就 可 以 用 下 面 的 恒等式 来 获得 语言 
和 M 的 交 : 
LNM=LUM (4-1) 
一 般 而 言 ， 两 个 集合 的 交 就 是 不 在 这 两 个 集合 中 的 任何 一 个 的 补 集中 的 元 素 的 集合 。 这 个 事实 ,也 
就 是 等 式 (4-1) 中 所 说 的 ， 是 德 摩根 律 之 一 。 另 外 一 条 是 把 其 中 的 交 和 并 互 换 ; 即 LUM=ZN 赵 、 
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然而 ， 我 们 也 可 以 直接 构造 两 个 正则 语言 的 交 的 DFA。 这 个 构造 方法 本 质 上 是 并 行 地 运行 
两 个 DFA， 该 方法 本 身 是 很 有 用 的 。 例 如 ， 我 们 可 以 用 它 来 构造 图 2-3 中 的 自动 机 ， 它 可 以 表示 
两 个 参与 者 (银行 和 商店 ) 正在 做 的 事情 的 “乘积 ”。 在 下 面 的 定理 中 我 们 将 会 形式 化 地 介绍 这 


定理 4.8 如果 L 和 M 都 是 正则 语言 ， 则 LMM 也 是 。 

证 明 设 L 和 MM 分 别 是 自动 机 Az = (Qi, ,6, gL,Fi) 和 Ax= (Qxm,， 2, 6m, qm, Fx) 的 语言 。 注音， 
我 们 假定 这 两 个 自动 机 的 字母 表 是 相同 的 ， 也 就 是 说 ， 如 果 L 和 M 的 字母 表 不 同 则 王 它 们 的 并 。 
乘积 构造 法 实际 上 不 仅 能 够 用 于 DFA， 也 能 用 于 NFA， 但 为 了 简单 起 见 ， 我 们 假设 Ai 和 Aw 都 是 
DFA., 

对 于 LAM， 我 们 将 要 构造 一 个 自动 机 A 来 同时 模拟 Ar 和 4Aw。4 中 的 每 个 状态 是 一 个 状态 对 ， 
其 中 第 一 个 是 A 中 的 状态 ， 第 二 个 是 A 中 的 状态 。 接 着 设计 4 的 转移 ， 假 设 4 处 在 状态 (p,qg) (其 
中 p 是 Ai 的 状态 ，4 是 An 的 状态 )。 如 果 a 是 输入 符号 ,我 们 看 Ai 对 于 输入 4 做 什么 动作 ， 比 如 它 
转 到 状态 *。 我 们 再 看 4w 对 于 输入 4 做 什么 动作 ， 比 如 它 转 到 状态 :。 那 么 4 的 下 一 个 状态 就 是 (5， 
作 。 就 像 这 样 ，A4 同 时 模拟 A 和 A 的 效果 。 图 4-3 简 单 勾画 出 了 这 一 思想 。 


输入 a 





图 4-3 一 个 自动 机 模拟 另外 的 两 个 自动 机 ,并且 当 且 仅 当 它 们 都 接受 时 接受 


剩 下 的 细节 部 分 就 很 简单 了 。4 的 初始 状态 就 是 由 4 和 4w 的 初始 状态 组 成 的 对 ”由 于 我 们 
想 要 当 且 仅 当 两 个 自动 机 都 接受 时 接受 ， 所 以 我 们 把 所 有 如 下 形式 的 对 (p, g) 选 出 来 作为 4 的 接 
受 状态 : p 是 4 的 接受 状态 ，4 是 4w 的 接受 状态 。 形 式 化 地 定义 如 下 ， 

4=(OxON2.6(2 4 古书 ) 

其 中 6 ((p, 9q), a) = (6.(p,a), 6u (gq, a)). 

为 了 和 弄 清楚 为 什么 L(4) = Z(4z)mZ(4w )， 首 先 注 意 到 很 容易 通过 对 Iwl 进 行 归纳 来 证 
明 6((q,,qw),w) = (6,(q,,w),6, (qu,w)) 。 但 是 A 接受 w 当 且 仅 当 6((q,,q,),w) 是 一 对 接受 状态 ， 岂 
就 是 说 ，6,(q,,w) 必 须 属 于 Fi 并且 6,(q,,w) 必须 属于 Fw。 换 名 话说 ，w 被 4 接受 当 且 仅 当 它 同时 
被 4L. 和 Aw 接 受 。 因 此 A 接受 LIM 的 交 ， 口 
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例 4.9 ”在 图 4-4 中 可 以 看 到 两 个 DFA。 图 4-4a 中 的 自动 机 接受 所 有 包含 0 的 串 ， 而 图 4-4b 中 的 
目 动 机 接受 所 有 包含 1 的 串 。 图 4-4c 给 出 了 这 两 个 自动 机 的 乘积 。 它 的 状态 是 由 图 4-4a 和 图 4-4b 





图 4-4 乘积 构造 法 


很 容易 证 明 该 自动 机 能 够 接受 前 两 个 语言 的 交 : 同时 含有 0 和 1 的 串 。 因 为 状态 pr 代表 初始 
情况 ， 此 时 我 们 还 没有 看 到 0 或 者 1。 状 态 q7 意 味 着 我 们 只 看 到 了 0， 而 状态 ps 意味 着 我 们 只 看 到 
了 0。 接 受 状 态 4s 表 示 我 们 已 经 看 到 了 0 和 1 的 情况 。 吕 


4.2.1.4 差 运算 的 封闭 性 

还 有 第 四 个 经 常用 于 集合 的 运算 ， 它 是 与 布尔 运算 有 关 的 运算 : 集合 的 差 。 用 在 语言 中 就 
是 L 一 M 是 L 和 M 的 差 ， 它 是 所 有 属于 语言 L 但 不 属于 语言 M 的 串 的 集合 。 正 则 语言 在 该 运算 下 仍 
然 封 用 ， 并 且 该 结论 的 证 明 可 以 很 容易 通过 使 用 前 面 证 明了 的 定理 来 完成 。 


定理 4.10 如 果 L 和 M 是 正则 语言 ， 则 L 一 M 也 是 正则 语言 。 
证 明 注意 到 L 一 M = LN M 。 根 据 定理 4.5 可 知 MM 是 正则 的 ， Po 8 可 知 厂 门 M 是 
正则 的 。 因 此 ZL 一 M 也 是 正则 的 。 口 


4.2.2 反 转 


一 个 串 ai az ww 的 反 转 是 把 该 串 反 过 来 写 ， Baran-1*** ai。 我 们 用 we 表示 串 w 的 反 转 。 因此 
0010 = 0100 三 起 

一 个 语言 L 的 反 转 记 作 Lx， 是 指 由 所 有 该 语言 中 的 串 的 反 转 所 组 成 的 语言 。 例 如 ， 如 果 L = 
OO 10 1 RRs 4100.01, in 

反 转 是 男 一 个 保持 正则 语言 的 运算 ,也 就 是 说 ， 如 果 L 是 一 个 正则 语言 ， 那 么 L* 也 是 。 有 两 
种 简单 的 证 明 方法 ， 一 种 基于 自动 机 ， 另 一 种 基于 正则 表达 式 。 我 们 非 形式 地 给 出 基于 自动 机 
的 证 明 ， 如 果 读 者 有 兴趣 可 以 自己 给 出 证 明 的 细节 。 接 着 我 们 用 正则 表达 式 形式 化 地 证 明 这 个 
定理 。 

给 定 一 个 语言 L 也 就 是 给 定 了 某 个 有 穷 自动 机 的 L(4)， 也 许 该 自动 机 是 非 确定 性 的 或 者 有 & 

转移 的 ， 我 们 通过 下 列 方法 构造 Lx 的 自动 机 : 

1. 把 4 的 状态 转移 图 中 的 所 有 入 弧 反 转 。 
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2. 新 自动 机 惟一 的 接受 状态 是 4 的 初始 状态 。 

3. 创建 一 个 新 的 初始 状态 ps， 同时 从 该 状态 出 发 到 所 有 A 的 接受 状态 都 建立 一 个 转移 。 

这 样 所 得 的 结果 是 一 个 “ 反 转 过 来 ”模拟 4 的 自动 机 ， 并 且 它 接受 一 个 串 w 当 且 仅 当 A4 接 受 
w*。 现 在 ,我 们 形式 化 地 证 明 反 转 定理 。 


定理 4.11 如 果 Z 是 正则 语言 ， 则 严 也 是 。 
证 明 设 L 由 正则 表达 式 E 定 义 。 该 定理 的 证 明 过 程 是 对 E 的 大 小 进行 归纳 。 我 们 将 会 证 明 存 
在 男 一 个 正则 表达 式 E* 使 得 L(E*) = (L(E)， 换 句 话 说 ，E* 的 语言 正 是 E 的 语言 的 反 转 。 
基础 : 如 果 E 是 ze、 名 或 者 某 个 符号 a， 则 Er* 和 E 相 同 。 也 就 是 说 ， 我 们 有 {e}* = {e}, CR = 2， 
{a}”= {a}。 
归纳 : 根据 E 的 形式 ， 共 分 以 下 三 种 情况 : 
1.E= E+ EE 则 ER = E+E;， 理由 是 两 个 语言 的 并 的 反 转 可 以 通过 分 别 计算 这 两 个 语言 
的 反 转 再 把 所 得 的 语言 取 并 来 得 到 。 
2.E = EiE;。 则 E* = Er E" ,注意 我 们 在 分 别 取 这 两 个 语言 的 反 转 的 同时 交换 了 这 两 个 语言 
的 顺序 。 例 如 ， 如 果 L(E1) = {01, 111} 并 且 L(E;) = {00, 10},， 则 L(E; E;) = {0100, 0110， 
11100, 11110}， 该 语言 的 反 转 是 
{0010, 0110, 00111, 01111} 
如 采 我 们 把 两 个 语言 L(E2) 和 L(E1) 的 反 转 按 该 顺序 连接 起 来 ， 就 会 得 到 
{00, 01}{10, 111} = {0010, 00111, 0110, 01111} 
恰好 就 是 语言 (L(E1E,)*。 一 般 而 言 ， 如 果 L(E) 中 的 一 个 串 w 是 L(E1) 中 的 串 wt: 和 L(E2) 中 的 
串 w 的 连接 ， 则 ws = ws w*。 
3.£= El。 则 E* =(E")。 理由 是 任何 LE1) 中 的 串 w 都 可 以 写作 wiw2…w,， 其 中 每 个 wi 都 属于 
LE 。 但 是 


R 
1 


其 中 每 个 w' 都 属于 L( E*)， 因 此 wr 也 属于 ( E*)。 反 过 来 就 是 ， 任 何 L(( E*)") 中 的 串 都 是 
wiw2"…wn 的 形式 ， 其 中 每 个 w; 是 L(E1) 中 的 某 个 串 的 反 转 。 而 因此 该 串 的 反 转 w* 
wm Wi 就 是 L(E1* ) 中 的 串 ， 也 就 是 L(E) 中 的 串 。 至 此 我 们 已 经 证 明了 一 个 串 属于 L(E) 
当 且 仅 当 它 的 反 转 属于 (EE*))。 口 


R pe, 
W =W Ww 


例 4.12 设 L 是 由 正则 表达 式 (0 + D0" 定 义 的 语言 。 则 根据 连接 规则 可 知 严 是 (0)8(0 + TDx 的 
语言 ， 如 采 我 们 再 对 这 两 部 分 分 别 使 用 封闭 性 规则 和 并 规则 ， 然 后 再 使 用 基础 规则 ， 也 就 是 0 和 
1 时 反 转 就 是 它们 本 身 ， 最 后 我 们 可 以 得 到 严 的 正则 表达 式 为 0"(0 + 1)。 口 


4.2.3 同 态 
串 同 态 是 串 的 函数 ， 它 对 于 每 个 符号 用 一 个 特别 的 串 来 替换 。 
例 4.13 ”由 h(0) = ab 和 h(1) = se 定义 的 函数 h 是 一 个 同 态 。 给 定 任何 由 0 和 1 组 成 的 串 ， 它 用 ab 
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检 换 所 有 的 0 并 把 所 有 的 1 用 空 串 替换 。 例 如 ，h 作 用 到 串 0011 上 的 结果 是 abab。 口 


形式 化 的 定义 是 : 如 果 j 是 字母 表 卫 上 的 一 个 同 态 ， 且 w = aia2…an 是 由 2 中 的 符号 组 成 的 
串 ， 则 hQw) = h(a1) h(a2)…h(an)。 也 就 是 说 ， 我 们 对 于 w 中 的 每 个 符号 分 别 用 h 来 作用 ， 然 后 再 把 
结 采 按 顺 序 连 接 起 来 。 例 如 ， 如 果 h 是 例 4.13 中 的 同 态 ， 且 w = 0011， 则 h(w) = h(O)h(O)h(1)h(1) = 
(ab)(ab)(a)(e) = abab， 和 我 们 在 例子 中 给 出 的 结果 一 样 。 

更 进一步 地 说 ， 我 们 可 以 对 一 个 语言 应 用 同 态 : 只 要 分 别 对 它 的 每 一 个 串 使 用 同 态 即 可 。 
也 就 是 说 ,如 果 L 是 字母 表 > 上 的 语言 ， 且 h 是 字母 表 3 的 一 个 同 态 , 则 AZ) = {h(w)1w 属 于 L}。 
例如 ， 如 采 L 是 由 正则 表达 式 10*1 的 语言 ， 即 任何 个 数 的 0 两 端 用 1 围 住所 得 的 串 ， 则 h(L) 是 语言 
(ab)*。 原 因 是 例 4.3 中 的 h 把 1 全 都 变 成 了 e， 也 就 是 全 部 去 掉 了 ， 而 把 0 都 变 成 了 ab。 当 把 同 态 直 
接 用 在 正则 表达 式 上 时 ， 可 以 用 同样 的 思想 来 证 明正 则 语言 在 同 态 下 是 封闭 的 。 


定理 4.14 如 果 Z 是 字母 表 > 上 的 正则 语言 ，h 是 字母 表 卫 上 的 一 个 同 态 ， 则 AD 也 是 正则 的 。 

证 明 设 L = L(R)， 其 中 R 是 正则 表达 式 。 一 般 地 ， 如 果 E 是 正则 表达 式 ， 且 E 中 有 字母 表 了 
中 的 符号 ， 则 用 h(E) 来 表示 把 每 一 个 中 符号 a 用 h(a) 来 代替 后 所 得 到 的 表达 式 。 我 们 将 要 证 明 
h(R) 定 义 的 语言 是 h(L)。 

证 明 很 简单 ， 只 要 用 结构 归纳 法 来 证 明 : 只 要 我 们 取出 R 的 一 个 子 表达 式 E， 并 且 对 它 应 用 有 h 
得 到 h(E)， 那 么 h(E) 的 语言 就 和 我 们 对 语言 L( 思 应 用 h 所 得 的 语言 相同 。 形 式 化 地 就 是 L(h(E)) = 
h(L(E))。 

基础 : 如 果 E 是 或 者 如 ， 则 h(E) 与 E 相 同 ， 原 因 是 h 对 串 e 或 者 语言 @ 不 起 作用 。 因 此 Lh(B)) = 
L(E)。 然 而 ， 如 果 E 是 如 或 者 ze， 那么 相应 的 L( 思 中 或 者 没有 串 ， 或 者 只 有 空 串 ， 因 此 ， 在 这 两 种 
情况 下 均 有 h(L(E)) = L(E)， 我 们 得 出 结论 (h(E)) = L(E) = h(L(E))。 

为 外 一 种 基础 的 情况 是 E = a， 其 中 a 是 3 中 的 一 个 符号 。 此 时 ，L(B) = {a}， 所 以 h(L(B)) = 
{h(q)}。 同 样 ，h(E) 也 正 是 符号 串 h(a) 表 示 的 正则 表达 式 ， 因 此 L(h( 轧 ) 也 就 是 {h(a)}， 所 以 可 以 得 
出 结论 (h(E)) = h(L(E))。 

归纳 : 一 共有 三 种 情况 ， 每 种 都 很 简单 。 我 们 只 证 明 并 的 情况 ， 也 就 是 E = F + G。 我 们 对 
正则 表达 式 应 用 同 态 的 方法 保证 了 h(E) = h(F + G) = MP + h(G)。 由 正则 表达 式 中 加 号 “+” 的 
含义 的 定义 我 们 知道 L(E) = L(F) UL(G), 并 且 

L(h(E)) = L(h(F) + h(G)) = L(h(F)) U L(h(O)) (4-2) 

最 后 ， 由 于 当 把 /作用 于 一 个 语言 上 时 实际 上 就 是 把 它 作用 单独 到 这 个 语言 中 的 每 二 个 串 ， 

我 们 得 到 

h(L(E)) = h(L(F) U L(GO)) = h(L(F)) U h(L(O)) (4-3) 
现在 我 们 可 以 利用 归纳 假设 来 得 出 结论 L(h(P)) = h(L( 妈 )) 以 及 Lh(G)) = h(L(G))。 因 此 ， 式 (4-2) 中 
最 后 的 那个 表达 式 和 式 (4-3) 中 最 后 的 那个 表达 式 是 相等 的 ， 因 此 得 出 它们 的 第 一 项 也 是 相等 的 ， 
BL(h(E)) = h(L(E)). 

我 们 就 不 证 明 当 表达 式 下 是 表达 式 的 连接 或 者 封闭 性 的 情况 了 ， 这 些 证 明 的 思想 与 上 面 的 情 
况 类 似 。 结 论 是 L(h(R)) 就 是 h(L(R))， 也 就 是 说 ， 对 定义 一 个 语言 L 的 正则 表达 式 应 用 同 态 h 所 得 
到 的 正则 表达 式 恰 好 定义 了 语言 h(L)。 站 
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4.2.4 逆 同 态 


同 态 也 可 以 被 “ 反 过 来 ”使 用 ,并 且 在 这 种 情况 下 仍然 保持 它 是 正则 语言 。 也 就 是 说 ， 设 h 
是 某 个 字母 表 2 到 另 一 个 字母 表 (也 可 能 是 同一 个 ) 7 ?上 的 串 的 同 态 。 设 7 是 字母 表 7 上 的 语言 。 
那么 hrA(L)( 读 作 L 的 h 逆 ) 是 所 有 满足 如 下 条 件 的 3” 中 的 串 w 的 集合 : h(w) 属 于 L。 图 4-5a 给 出 
了 对 一 个 语言 L 应 用 同 态 的 效果 ， 而 图 4-5b 则 给 出 了 逆 同 态 的 效果 。 


例 4.15 设 L 是 正则 表达 式 (00 + 1 的 语言 ， 也 就 是 说 ，Z 是 由 所 有 包含 0 和 1 且 0 都 是 成 对 出 
现 的 串 所 构成 的 语言 。 比 如 ，0010011 和 10000111 都 属于 LL， 而 000 和 10100 则 都 不 属于 L。 


DO 


a) b) 
图 4-5 正和 同和 反 疝 使 用 的 同 态 


设 h 是 由 h(a) = 01 和 h(b) = 10 定 义 的 同 态 。 下 面 将 要 证 明太 !(D 是 正则 表达 式 (ba)* 的 语言 ， 即 
所 有 由 重复 的 pa 对 所 构成 的 串 。 我 们 只 需 证 明 jw) 属 于 坞 当 且 仅 当 w% 是 papa…zpa 的 形式 。 

( 当 ) 假设 是 "个 重复 的 pae， 其 中 z>0。 注 意 到 Mpa) = 1001， 所 以 h(w) 是 n 个 1001 的 重复 。 
由 于 1001 是 由 两 个 1 和 一 对 0 构成 的 ， 因 此 知道 1001 属 于 KL， 并 且 把 1001 重 复 任意 多 次 以 后 仍然 是 
由 1 和 00 有 段 构成 的 ， 因 此 仍然 属于 L。 所 以 得 到 h(w) 属 于 LL。 

( 仅 当 ) 现在 ， 必 须 假设 h(w) 属 于 L， 然 后 证 明 w 是 baba…ba 的 形式 。 如 果 一 个 串 不 是 这 种 形 
式 ， 那 么 这 个 串 共 有 四 种 可 能 的 情况 ， 下 面 将 会 证 明 如 果 这 四 种 情况 中 的 任何 二 种 成 立 则 h(w) 
不 属于 L。 也 就 是 说 ， 证 明了 我 们 要 证 明 的 命题 的 逆 否 命题 。 

1. 如 采 wL 以 a 开头 ， 则 h(w) 以 01 开 头 ， 因 此 有 一 个 单独 的 0， 因 而 不 属于 LL。 

2. 如 采 w 以 8 结束 ， 则 Pow) 以 10 结 束 ， 因 此 Po 中 有 一 个 单独 的 0， 因 而 不 属于 工 。 

3. 如 末 w 有 两 个 连续 的 4， 则 h(w) 有 子 串 0101， 再 一 次 得 到 单独 的 0。 

4. 类 似 地 ， 如 果 w 有 两 个 连续 的 bp， 则 h(w) 有 子 串 1010， 其 中 也 有 单独 的 0。 

因此 ， 只 要 上 述 四 种 情况 中 的 一 种 成 立 ，h(w) 就 不 属于 L。 然 而 ， 除 非 上 面 四 种 情况 中 至 少 
一 种 成 立 ， 否 则 w 一 定 是 baba…ba 的 形式 。 原 因 是 ,假设 (1) 到 (4) 都 不 成 立 ， 则 (]) 说 明 w 一 定 以 b 
开头 ， 而 (2) 说 明 w 一 定 以 b 结 尾 。(3) 和 (4) 告 诉 我 们 在 w 中 a 和 wb 一 定 交替 出 现 。 因 此 ， 从 (1) 到 (4) 的 
逻辑 “或 ”就 是 命题 “w 不 是 baba…ba 的 形式 ”的 等 价 命题 。 我 们 已 经 证 明了 (1) 到 (4) 的 “或 ” 
纺 涵 着 h(w) 不 属于 L， 而 这 个 命题 就 我 们 所 需要 的 “如 果 h(w) 属 于 L， 则 w 是 baba:…ba 的 形式 ”的 
逆 否 命题 。 口 


唱 这 个 7 应 该 被 看 成 是 希腊 字母 的 大 写 ， 也 就 是 2 后 面 的 那个 希腊 字母 。 
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下 面 我 们 将 证 明正 则 语言 的 逆 同 态 仍然 是 正则 的 ， 并 且 示 范 如 何 使 用 这 个 定理 。 


定理 4.16 ”如果 hh 是 字母 表 了 到 字母 表 7 的 同 态 ， 且 7 是 字母 表 7 上 的 正则 语言 ， 那 么 (DZD) 也 
是 正则 语言 。 

证 明 首先 从 I 的 一 个 DFA A 出 发 。 我 们 从 A 和 h 构 造 一 个 hi(L) 的 DFA， 如 图 4-6 所 示 。 这 个 
DFA 使 用 A 的 状态 ， 但 是 在 决定 转移 到 哪个 下 一 状态 之 前 把 输入 符号 按照 h 对 应 地 转移 一 下 。 


输入 a 





输入 h(a) 到 A 





Start 


接受 /拒绝 


图 4-6 7!(L) 的 DFA 在 其 输入 上 应 用 h， 然 后 模拟 L 的 DFA 
形式 化 地 ， 设 L 是 LA)， 其 中 DFA A = (Q, T, 6, go, 下 )。 定 义 一 个 DFA 
| B=(0, 2,7y, go,F) 

其 中 转移 函数 y 由 规则 y(q, a) = 6(q, h(a)) 构 造 。 也 就 是 说 ，B 对 于 输入 a 的 转移 就 是 4 对 于 符号 序 
列 h(a) 的 一 系列 转移 的 结果 。 记 得 h(a) 可 能 是 e、 一 个 符号 或 者 很 多 符号 ， 但 是 在 这 些 情况 下 6 都 
是 有 适当 的 定义 的 。 

很 容易 通过 对 Iwl 进 行 归纳 来 证 明 7 (go, w) = 56(g, h(w))。 因 为 4 和 B 的 接受 状态 相同 ， 所 LB 
接受 w 当 且 仅 当 4 接 受 h(w)。 换 句 话 说 ，B 恰 好 接受 那些 h-1(L) 中 的 捉 w、 口 


例 4.17 ”在 本 例 中 我 们 将 要 使 用 逆 同 态 和 正则 集 的 一 些 其 他 的 封闭 性 来 证 明 一 个 有 穷 自动 
机 的 特殊 性 质 。 假 设 我 们 需要 一 个 DFA 在 接受 输入 时 要 经 过 每 个 状态 至 少 一 次 。 更 精确 地 说 ， 
设 A = (Q，2, 6, qo, 月 是 一 个 DEA， 而 我 们 所 关心 的 是 所 有 满足 如 下 条 件 的 2* 中 的 串 w 所 组 成 的 
语言 Z: 6 (qo, w) 属 于 ， 并 且 对 于 任何 CQ 中 的 状态 9， 存 在 w 的 某 个 前 级 x, 使 得 6(go,x,) = g。 这 样 
的 Z 是 正则 的 吗 ? 我 们 可 以 证 明 它 是 ， 但 构造 过 程 比 较 复杂 。 

首先 ， 从 语言 M 出 发 (就 是 ZL4))， 也 就 是 4 以 通常 方式 (不 考虑 在 处 理 输入 串 的 过 程 中 所 
经 过 的 状态 ) 接受 的 串 的 集合 。 注 意 到 二 EM， 原因 是 Z 的 定义 其 实 是 在 ZL4) 中 的 种 上 又 附加 了 
条 件 。 证 明 Z 是 正则 的 首先 通过 使 用 一 个 逆 同 态 来 有 效 地 把 4 中 的 状态 转变 为 输入 符号 。 更 精确 
地 说 ， 我 们 来 定义 一 个 新 的 字母 表 7， 它 由 所 有 看 成 如 下 形式 的 三 元 组 [pa9] 符 号 组 成 ， 其 中 ， 

1.p 和 4 都 是 C 中 的 状态 。 

2.a 是 中 的 符号 。 

3 Cs 


ss 


也 就 是 说 ， 我 们 把 7 中 的 符号 看 作 代表 自动 机 4 中 的 转移 。 了 解 [pad] 是 我 们 用 来 表示 单个 符 
号 (而 不 是 三 个 符号 的 连接 ) 的 这 一 点 很 重要 。 我 们 也 可 以 用 单个 字母 来 给 它 命名 ， 但 是 如 果 
这 样 它 和 p, 9 以 及 ac 的 关系 就 很 难 表达 了 。 
现在 ， 对 所 有 的 p, a 和 4 定义 同 态 h([paq]) = a。 也 就 是 说 ，h 把 7 中 的 每 个 符号 的 状态 部 分 都 
去 择 ， 而 只 剩 下 一 个 也 中 的 符号 的 部 分 。 证 明 Z 是 正则 语言 的 第 一 步 是 构造 语言 = hi(M)。 由 
于 M 是 正则 的 ， 所 以 根据 定理 4.16 知 姜 也 是 正则 的 。 瑟 的 串 就 是 在 M 的 串 中 对 每 个 符号 加 上 一 对 
状态 来 代表 一 个 转移 。 
用 图 4-4a 中 两 状态 自动 机 来 做 一 个 简单 的 示例 ， 此 时 字母 表 了 是 {0, 1}， 而 字母 表 7 由 四 个 
符号 组 成 : [p04], [904], [plp] 和 [gq1q]。 例 如 ， 有 一 个 从 状态 p 到 状态 q 输 入 为 0 时 的 转移 ， 因 此 
[p04q] 是 7T 中 的 一 个 符号 。 由 于 101 是 一 个 该 自动 机 所 接受 的 串 ， 所 以 把 h7! 应 用 到 该 串 将 得 到 23 = 
8 个 串 ， 例 如 [plp]j[p0gq][q19] 和 [gq1q][g0q][plp] 是 其 中 的 两 个 。 
我 们 将 从 工 经 过 一 系列 保持 正则 语言 的 运算 来 构造 L。 第 一 个 目标 是 去 掉 Z 中 不 能 正确 处 理 
状态 的 串 。 也 就 是 说 ， 我 们 可 以 把 一 个 符号 [pa9] 看 作 自 动机 位 于 状态 pp， 读 入 输入 ae， 然 后 因此 
进入 状态 9。 这 样 的 符号 的 序列 必须 满足 以 下 三 个 条 件 才能 被 看 作 A4 的 一 个 接受 计算 : 
1. 第 一 个 符号 的 第 一 个 状态 必须 是 qo， 也 就 是 4 的 初始 状态 。 
2. 每 个 转移 必须 从 上 一 个 转移 结束 的 地 方 出 发 ， 也 就 是 说 ， 一 个 符号 的 第 一 个 状态 必须 和 
前 一 个 符号 的 第 二 个 状态 相同 。 

3. 最 后 一 个 符号 的 第 二 个 状态 必须 属于 F。 事 实 上 这 个 条 件 可 以 由 (1) 和 (2) 得 到 ， 因 为 我 们 
已 经 知道 Li 中 的 每 个 串 都 是 从 一 个 被 A 接受 的 串 得 来 的 。 

图 4-7 给 出 了 构造 L 的 设计 方案 。 


自动 机 4 的 语言 
逆 同 态 
嵌入 状态 转移 的 M 的 串 


和 一 个 正则 语言 的 交 


加 入 第 一 个 状态 是 初始 状态 的 条 件 


和 一 个 正则 语言 的 差 


加 入 相 邻 状态 相同 的 条 件 
和 一 个 正则 语言 的 差 

加 入 所 有 状态 在 路 径 中 都 出 现 的 条 件 
同 态 


删除 状态 部 分 ， 留 下 符号 部 分 





图 4-7 通过 使 用 保留 语言 正则 性 的 运算 来 从 语言 M 构 造 语言 L 
我 们 达到 条 件 (1) 的 方法 是 : 使 Li 和 所 有 开头 符号 为 [qoaq] 的 串 的 集合 求 交 ， 其 中 a 是 某 个 符 
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号 ，9 是 某 个 状态 。 也 就 是 说 ， 设 Bi 是 表达 式 [qoaiq1] + [qo4292] + …， 其 中 aig; 的 范围 是 所 有 x 
QC 中 满足 bqo, wu) = qi; 的 对 。 然 后 设 马 = NL(B1T*)。 由 于 BIT* 是 表示 所 有 TT 中 以 初始 状态 开头 的 
串 的 正则 表达 式 〈 把 正则 表达 式 中 的 7 看 作 所 有 它 的 符号 的 和 )， 五 是 所 有 对 语言 M 应 用 FI 形成 
的 串 中 第 一 个 符号 的 第 一 个 部 分 是 初始 符号 的 那些 串 ， 也 就 是 说 它 满足 条 件 (1)。 

为 了 达到 条 件 (2)， 很 容易 使 用 差 运算 从 丈 中 去 掉 那 些 不 满足 它 的 串 。 设 包 是 由 所 有 不 匹配 
的 符号 对 的 连接 的 和 (并 ) 构成 的 正则 表达 式 ， 也 就 是 所 有 [pag][rbs] 形 式 的 对 ， 其 中 g 去 r"。 则 
TE2T 就 是 表示 所 有 不 满足 条 件 (2) 的 串 的 正则 表达 式 。 

现在 我 们 可 以 定义 玉 = 一 LT'E;T*)。L; 的 串 满 足 条 件 (1)， 原因 是 蕊 中 的 串 一 定 以 初始 符 
号 开头 。 它 们 也 满足 条 件 (2)， 因 为 减 去 L(T*"E27") 就 等 于 去 掉 了 所 有 不 满足 该 条 件 的 串 。 最 后 ， 
它们 满足 条 件 (3)， 也 就 是 最 后 状态 是 接受 状态 ， 原 因 是 开始 时 我 们 只 使 用 了 M 中 的 串 ， 而 这 些 
串 都 是 被 4 所 接受 的 。 最 后 的 结果 是 Za 由 所 有 M 中 满足 如 下 条 件 的 串 构 成 ; 它们 中 的 每 个 符号 中 
幢 入 的 状态 表示 了 一 个 接受 计算 。 注 意 是 正则 的 ， 原因 是 它 是 从 正则 语言 M 出 发 ， 经 过 使 用 
逆 同 态 、 交 和 集合 差 运 算得 到 的 结果 ， 而 这 些 运算 在 应 用 于 正则 语言 时 所 得 到 的 结果 仍然 是 正 
则 语言 。 

我 们 的 目 的 是 只 接受 那些 在 它们 的 接受 计算 过 程 中 经 过 了 所 有 状态 的 M 中 的 串 。 我 们 可 以 
通过 再 使 用 一 次 集合 差 运 算 来 满足 这 个 条 件 。 也 就 是 说 ， 对 于 每 个 状态 gq， 设 E 是 由 7 的 所 有 第 
一 个 和 最 后 一 个 状态 里 都 不 是 q 的 符号 的 和 构成 的 正则 表达 式 。 如 琳 从 五 中 减 去 L(E;)， 那 么 所 得 
到 的 那些 串 都 是 表示 4 的 一 个 接受 计算 ， 且 该 接受 计算 的 过 程 中 至 少 经 过 状态 gq 一 次 。 如 果 对 于 
QC 中 的 每 个 状态 9， 都 从 中 减 去 L(E: )， 那么 得 到 的 就 都 是 4 的 经 过 所 有 状态 的 接受 计算 。 把 该 
语言 记 作 大， 根据 定理 4.10 可 知已 也 是 正则 的 ， 

取 后 一 步 是 从 Ls 构造 L， 也 就 是 要 去 掉 所 有 的 状态 部 分 ， 即 LL = h(L4)。 现 在， Z 就 是 所 有 满 
足 如 下 条 件 的 >* 中 的 串 的 集合 了 : 它 被 4 所 接受 ， 并 且 在 接受 过 程 中 经 过 4 的 每 个 状态 至 少 一 次 。 
因为 正则 语言 在 同 态 运算 下 是 封闭 的 ， 因此 我 们 知道 Z 也 是 正则 语言 。 口 


4.2.5 习题 


习题 4.2.1 ， 设 /是 从 字母 表 {0, 1, 2} 到 字母 表 {a, 分 的 同 态 ， h 的 定义 为 : h(0) = a; h(1) = ab; 
h(2) = 
* a) h(0120) 是 什么 ? 
b) h(21120) 是 什么 ? 
* 5) 如 采 Z 是 语言 Z(012)， 则 AD) 是 什么 ? 
d) 如 琳 L 是 语言 L(0 + 12)， 则 AD) 是 什么 ? 
* ©) 设 L 是 语言 {ababa}， 也 就 是 只 包含 一 个 申 ababa 的 语言 ， 则 -1(D) 是 什么 ? 
!f) 如 有 果 LL 是 语言 L(a(ba)*)， 则 h71() 是 什么 ? 

“习题 4.2.2 如 果 L 是 一 个 语言 ，a 是 一 个 符号 ， 则 La ( 称 作 L 和 a 的 商 ) 征 所 有 满足 如 下 条 件 
的 囊 w 的 集合 ; wa 属于 L。 例 如 ， 如 果 L = {a, aab, baa}, 则 La = {e,ba}， 证 明 : 如 果 Z 是 正则 的 ， 
那么 La 也 是 。 提 示 : 从 L 的 DFA 出 发 ， 考 虑 接受 状态 的 集合 。 

: 习题 4.2.3 ”如 果 Z 是 一 个 语言 ，% 是 一 个 符号 ， 则 cv 是 所 有 满足 如 下 条 件 的 串 w 的 集合 ，amw 
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属于 L。 例如， 如 果 L = {a, aab, baa}， 则 a\L = {e, ab},， 证明: 如 果 Z 是 正则 的 ， 那 么 c 也 是 。 
提示 : 记得 正则 语言 在 反 转 运算 下 是 封闭 的 ， 又 由 习题 42.2 知 正则 语言 在 商 运 算 下 是 封闭 的 。 
! 习题 4.2.4 下 面 的 哪个 恒等式 为 真 ? 
a) (Lia)a =L (左边 表示 语言 Ua 和 {a} 的 连接 )。 
b) a(a\L) =L (同样 ， 这 次 左边 表示 {a} 和 和 aL 的 连接 )。 
oj(Da)as Le 
147 人 ON 全 二 
习题 4.2.5 “习题 4.2.3 中 的 运算 有 时 也 被 看 作 “ 导 数 ”， 此 时 oz 也 记 做 。 这 些 应 用 于 正 
则 表达 式 的 导数 在 某 种 意义 上 和 应 用 于 算术 表达 式 的 普通 的 导数 很 相似 。 因 而 ， 如 果 R 是 一 
个 正则 表达 式 ， 且 L = L(R)， 那 么 我 们 就 用 来 表示 和 守 同样 的 意义 。 
d(R+S) _dR dS 


a) 证 明 : Oo 
) 证 明 da da da 


sl b) 给 出 求 RS 的 “导数 ”的 规则 。 提 示 : 需要 考虑 两 种 情况 ，L(R) 包 含 s 和 L(R) 不 包含 e。 这 条 
规则 和 普通 的 导数 的 “乘积 法 则 ”并 不 完全 相同 ， 但 很 类 似 。 
! 9 给 出 求 封闭 性 的 “导数 ”的 规则 ， 即 “ 。 
d) 用 规则 (a) 到 (e) 来 求 出 关于 0 和 1 的 “导数 ”。 
se 给 出 满足 5 = 纪 的 语言 [的 特点 。 


“1 给 出 满足 5 = 工 的 语言 [的 特点 。 
! 习题 4.2.6 证 明正 则 语言 对 于 以 下 运算 封闭 : 
a) min (LD) = {w1w 属 于 L， 但 是 w 的 真 前 缀 都 不 属于 L}。 
b) max (ZL) = {w1w 属 于 L， 但 是 不 存在 串 x 满足 : x 关上 且 wx 属 于 L}。 
c) init (LZ) = {w1 对 于 某 个 帅 x*，wx 属 于 L}。 
提示 : 类 似 于 习题 4.2.2， 很 容易 从 L 的 一 个 DFA 出 发 来 构造 一 个 需要 的 语言 。 

! 习题 4.2.7 ”如 果 w = aia…a 和 x = bib，…b, 是 同样 长 度 的 串 ， 定 义 alt (w,) 是 把 w 和 x 交叉 起 
来 且 以 w 开 头 所 得 到 的 串 ， 即 a1b1a2b2…anb,。。 如 果 L 和 M 是 语言 ， 定 义 alt (L, M) 是 所 有 形式 为 
alt(w, x) 的 串 的 集合 ， 其 中 w 是 L 中 的 任意 串 ， 而 x 是 M 中 与 w 等 长 的 任意 串 。 证 明 : 如 果 L 和 M 都 
是 正则 的 ， 那 么 alt(L, MWM) 也 是 。 

#!! 习题 4.2.8 ” 设 L 是 一 个 语言 ， 定 义 half (是 所 有 L 中 串 的 前 一 半 构 成 的 集合 ， 即 {w1 对 于 某 个 
满足 xl = Iwl 的 x-，wx 属 于 L}。 例 如 ， 如 果 L = {&, 0010, 011, 010110}， 则 halfL) = {e, 00, 010}。 注 
意 ， 长 度 为 奇数 的 串 对 于 halhD) 没 有 贡献 。 证 明 : 如 果 Z 是 正则 的 ， 那 么 he 太刀 也 是 。 

!! 习题 4.2.9 ”我 们 把 习题 4.2.8 推 广 到 能 够 决定 取 走 串 中 多 大 部 分 的 一 系列 国 数 。 如 果 j 是 一 个 

148| ”整数 图 数 ， 定 义 FZD) 为 {Tw 1 对 某 个 满足 Kl = KIwD) 的 x-，wx 属 于 L}。 例 如 ， 和 运算 half 对 应 的 误 恒 
等 尔 数 fn) = n， 因 为 halKD) 的 定义 中 有 kK = Iwl。 证 明 : 如 果 L 是 正则 的 ， 那 么 对 于 以 下 的 f,，AL) 
也 是 正则 的 : 
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a)f(n)=2n (也 就 是 取 走 串 的 前 三 分 之 一 )。 
b)f(n)=n? (也 就 是 取 走 的 长 度 是 没 取 走 部 分 长 度 的 平方 根 )。 
c)f(n)=2” (也 就 是 取 走 的 长 度 是 剩 下 长 度 的 对 数 )。 

!! 习题 4.2.10 ” 设 L 是 任何 语言 ， 不 必 正 则 ， 它 的 字母 表 是 {0}， 即 的 串 都 只 由 0 构成 。 证 明 : 
是 正则 的 。 提 示 : 乍 一 看 ， 该 定理 很 苑 雇 。 然 而 ， 由 一 个 例子 可 以 看 出 来 为 什么 它 是 正确 的 。 
考虑 语言 L = {0'1i 是 素数 }， 我 们 已 经 由 例 4.3 知 道 它 不 是 正则 的 。 串 00 和 000 属 于 L， 因 为 2 和 3 都 
是 素数 。 因 此 ， 如 果 1>2， 我 们 可 以 证 明 0 属于 性 : 如 果 j 是 偶数 ， 那么 用 j/2 个 00， 如 果 j 是 奇数 ， 
那么 用 一 个 000 和 (j 一 3)/2 个 00。 因 此 L* = se+ 000”。 

!! 习题 4.2.11 证 明正 则 语言 在 下 面 的 运算 下 封闭 : cycle(Z) = {w 1 可 以 把 w 写 作 w = xy， 并 且 
满足 yx 属于 L}。 例 如 ， 如 果 L = {01, 011}， 则 cycle(Z) = {01, 10, 011, 110, 101}。 提 示 : 从 LL 的 一 
个 DFA 出 发 构造 一 个 cycle(Z) 的 ENFA。 

!! 习题 4.2.12 设 wi = dodod1, 对 于 所 有 的 i > 1, wi= Wiiwi-idi。 例如 w3 三 dodod1d0Q0G41424040 
aidoqoai424a3。 语 言 Ln = {wn}》 (也 就 是 只 包含 一 个 串 w 的 语言 ) 的 最 短 正则 表达 式 是 串 w 本 身 ， 
并 且 这 个 表达 式 的 长 度 是 2+ 1 一 1。 然 而 ， 如 果 允 许 交 运 算 符 ， 我 们 可 以 写 一 个 长 度 为 0(m?) 的 LL 
的 表达 式 。 找 到 这 样 的 表达 式 。 提 示 : 找到 n 个 语言 ， 每 个 的 长 度 都 是 CO0D)， 它 们 的 交 是 乙 。 

! 习题 4.2.13 ”我 们 可 以 用 封 困 性 来 帮助 证 明 一 些 语言 不 是 正则 的 。 从 下 面 的 语言 不 是 正则 的 
出 发 ， 

Lonin = {0"1"|n>>0} 
通过 已 知 对 Lonma 保 持 正则 性 的 运算 来 变换 的 方法 ， 证 明 下 列 语言 都 不 是 正则 的 : 
*a) {0'1i 冯 让 。 
UO) tO ED 
习题 4.2.14 在 定理 4.8 中 ,我们 通过 用 两 个 DFA 来 构造 另外 一 个 DFA 的 方法 来 描述 “乘积 构 
造 法 "， 其 中 被 构造 的 DFA 的 语言 是 前 两 个 的 语言 的 交 。 
a) 给 出 对 NFA (没有 转移 ) 采用 乘积 构造 法 的 方法 。 
!b) 给 出 对 se-NFA 采 用 乘积 构造 法 的 方法 。 
* Cc) 修改 乘积 构造 法 ， 使 之 所 得 到 的 DFA 接 受 的 是 给 定 的 两 个 DFA 的 语言 的 差 。 
d) 修改 乘积 构造 法 ,使 之 所 得 到 的 DFA 接 受 的 是 给 定 的 两 个 DFA 的 语言 的 并 
习题 4.2.15 在 定理 4.8 的 证 明 过 程 中 ， 我 们 说 可 以 通过 对 w 的 长 度 进行 归纳 来 证 明 : 
6((g,,q9n),w) = (6, (qi,w),6, (qu,w)) 
完成 这 个 归纳 证 明 。 

”习题 4.2.16 ”完成 定理 4.14 的 证 明 ， 考 虑 当 表 达 式 E 是 两 个 子 表 达 式 的 连接 或 另 一 个 表达 式 

的 封闭 性 的 情况 。 | 
习题 4.2.17 在 定理 4.16 中 ， 我们 省 略 了 通过 对 w 的 长 度 进行 归纳 来 证 明了 (go, w) = 6 (go， 
h(w)) 的 过 程 ， 给 出 该 证 明 过 程 。 


a a 


4.3 正则 语言 的 判定 性 质 


本 节 考 虑 如 何 回答 关于 正则 语言 的 重要 问题 。 首 先 必 须 考 虑 一 下 ， 询 问 一 个 关于 语言 的 问 
题 ， 这 到 底 意 味 着 什么 。 典 型 的 语言 是 无 穷 的 ， 所 以 不 能 给 出 语言 的 串 ， 并 且 询 问 要 求 检 查 串 
的 无 穷 集合 的 问题 。 恰 当 的 做 法 是 通过 给 出 本 书 已 经 开发 的 语言 的 有 穷 表 示 之 一 来 给 出 语言 : 
DFA、NFA、e-NFA 或 正则 表达 式 。 

当然 ， 这 样 描述 的 语言 将 是 正则 的 ， 事 实 上 ， 根 本 就 没有 办 法 来 完全 表示 任意 语言 。 在 后 
面 儿 章 里 将 要 看 到 表示 比 正则 语言 更 多 语言 的 有 穷 方法 ， 所 以 能 考虑 关于 在 这 些 更 一 般 类 中 语 
言 的 问题 。 但 是 ， 对 于 所 询问 的 许多 问题 ， 只 有 对 正则 语言 类 才 存 在 算法 。 当 使 用 更 “有 表达 
力 的 ， 记 号 《〈 即 能 用 来 表示 更 大 的 语言 集合 的 记号 ) 而 不 是 已 经 为 正则 语言 开发 的 表示 来 提出 
问题 时 ， 同 样 的 问题 就 成 为 “不 可 判定 的 ”( 没 有 回答 它们 的 算法 )。 

从 回顾 把 同一 语言 的 一 种 表示 转化 成 另 一 种 表示 的 方法 开始 关于 正则 语言 的 问题 的 算法 研 
究 。 具 体 地 说 ,希望 观察 执行 这 些 转 化 的 算法 的 时 间 复 杂 度 。 然 后 考虑 关于 语言 的 一 些 基本 
问题 : 

1. 所 摘 述 语言 是 否 为 空 ? 

2. 具体 的 串 w 是 否 属于 所 描述 语言 ? 

3. 语言 的 两 种 描述 是 否 实际 上 描述 同一 语言 ? 这 个 问题 通常 被 称 为 语言 的 “等 价 性 ”。 


4.3.1 在 各 种 表示 之 间 转 化 


已 知 正则 语言 四 种 表示 中 任意 一 种 都 能 转化 成 另外 三 种 表示 的 任意 一 种 。 图 3-1 给 出 从 任意 
表示 转化 到 其 余 任 意 表示 的 路 线 。 虽 然 对 于 任意 转化 都 存在 着 算法 ， 但 有 时 候 我 们 感 兴 趣 的 不 
仅 是 进行 转化 的 可 能 性 ， 还 有 转化 所 花费 的 时 间 量 。 具 体 地 说 ， 在 花费 (作为 输入 规模 的 函数 ) 
指数 时 间 因 而 只 能 对 相对 小 的 实例 执行 的 算法 与 花费 输入 规模 成 线性 、 二 次 或 某 个 低 次 多 项 式 
时 间 的 算法 之 间 做 出 区 分 ， 这 是 很 重要 的 。 在 预期 能 对 间 题 的 大 实例 来 执行 的 意义 下 ， 后 面 这 
类 算法 是 “现实 的 "。 我 们 将 考虑 所 讨论 的 每 种 转化 的 时 间 复 杂 度 。 

4.3.1.1 把 NFA 转 化 为 DFA 

当 从 NFA 或 -NFA 开 始 并 转化 成 DFA 时 ， 时 间 可 能 是 NFA 状 态 数 的 指数 。 首 先 ， 计 算 n 个 状 
人 态 的 E 封 闭 性 要 花费 O(m) 时 间 。 必 须 从 n 种 状态 中 每 一 个 沿 着 所 有 标记 的 往 弧 搜索 。 如 果 存 在 
n 种 状态 ， 则 不 可 能 超过 条 入 弧 。 明 智 的 矫 记 和 设计 良好 的 数据 结构 将 确保 能 在 O(n?) 时 间 里 
从 每 个 状态 中 搜索 。 事 实 上 ， 能 用 Warshall ( 沃 舍 尔 ) 算法 这 样 的 封闭 性 算法 来 立刻 计算 整个 e 
封闭 性 。” 

一 旦 计算 出 封闭 性 ， 就 能 用 子 集 构造 来 计算 等 价 的 DFA。 主 要 的 开销 原则 上 是 DFA 的 状态 
数 ， 这 可 能 是 2"。 通 过 查询 e 封 闭 性 信息 和 每 个 输入 符号 的 NFA 转 移 表 ， 就 能 在 O(m) 时 间 里 对 每 
种 状态 都 计算 出 转移 。 也 就 是 说 ,假设 希望 为 DFA 计 算 6({q1, q;, …, qx}, a)。 从 每 个 g; 沿 e 标 记 路 


线 可 能 有 多 达 m 个 状态 是 可 达 的 ， 这 些 状 态 中 每 个 可 能 有 至 多 ”个 箭 弧 标记 为 g。 通 过 建立 以 状态 


昌 ”对 于 传递 封闭 性 算法 的 讨论 ， 参 阅 A. V. Aho, J. E. Hopcroft, and J. D. Ullman, Data Structures and Algorithms, 
Addison-Wesley，1984。 
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为 下 标的 数组 ， 就 能 在 与 ?成 比例 的 时 间 里 计算 每 个 至 多 有 n 个 状态 的 至 多 n 个 集合 的 并 。 

以 这 种 方式 ， 就 能 对 每 个 4 计算 出 从 gi; 沿 着 带 标 记 a (可 能 包括 e) 的 路 径 可 达 的 状态 集合 。 
因为 k<<n， 至 多 存在 n 个 状态 要 处 理 。 我 们 对 每 个 状态 在 O(n 时 间 里 计算 出 可 达 状 态 。 因 此 ， 计 
算 可 达 状 态 所 花费 总 时 间 是 O(m)。 可 达 状 态 集合 的 并 只 需要 O(n?) 额 外 时 间 ， 结论 是 二 个 DFA 转 
移 的 计算 要 花费 O03) 时 间 。 

注意 ,假设 输入 符号 数 是 常数 且 不 依赖 +。 因 此 ， 在 对 运行 时 间 的 这 个 估计 和 其 他 估计 中 ， 
不 考虑 把 输入 符号 数 作为 因子 。 输 入 字母 表 的 规模 只 影响 “大 0O” 记 号 后 面 隐 藏 的 常数 因子 ， 而 
不 影响 任何 其 他 东西 。 

本 节 结 论 是 : 包括 NFA 有 转移 的 情况 在 内 ，NFA 到 DFA 转 化 的 运行 时 间 是 O(n32 )。 当 然 ， 
实际 上 产生 的 状态 数 通 常 都 远 远 小 于 2"， 经 常 只 有 n 个 状态 。 可 以 把 运行 时 间 的 界 叙 述 为 O(n3s)， 
其 中 s 是 DFA 实 际 具 有 的 状态 数 。 

4.3.1.2 DFA 到 NFA 的 转化 

这 个 转化 是 简单 的 ， 在 n 状 态 DFA 上 花费 O(n) 时 间 。 所 有 要 做 的 就 是 修改 DFA 的 转移 表 。 方 
法 是 : 给 状态 加 上 集合 括号 ， 如 果 输 出 是 e-NFA， 则 加 入 a 列 。 因 为 认为 输入 符号 数 “( 即 转移 表 
宽度 ) 是 常数 ， 所 以 复制 和 处 理 表 要 花费 005 时 间 。 

4.3.1.3 自动 机 到 正则 表达 式 的 转化 

如 果 检 查 3.2.1 节 的 构造 ， 会 注意 到 在 n 轮 的 每 轮 中 (n 是 DFA 状 态 数 )， 能 让 所 构造 正则 表达 
式 的 规模 变 为 四 倍 ， 因 为 每 个 正则 表达 式 是 从 前 一 轮 四 个 表达 式 建立 的 。 因 此 ， 单 是 写 下 龙 个 
表达 式 就 能 花费 O(n34" ) 时 间 。3.2.2 节 的 改进 构造 缩减 了 常数 因子 ， 但 不 影响 问题 的 最 坏 情 况 指 
数 性 。 

如 果 输 入 是 NFA 或 其 至 e-NFA， 则 同样 的 构造 在 同样 的 运行 时 间 里 起 作用 ， 但 本 书 不 证 明 这 
些 事实 。 不 过 ， 重 要 的 是 对 NFA 使 用 这 些 构造 。 如 果 首 先 把 NFA 转 化 成 DFA， 然 后 把 DFA 转 化 成 
正则 表达 式 ， 则 可 能 花费 0(8"4”) 时 间 ， 这 是 双重 指数 的 。 

4.3.1.4 正则 表达 式 到 自动 机 的 转化 

正则 表达 式 到 e-NFA 的 转化 花费 线性 时 间 。 需 要 有 效 地 对 表达 式 做 语法 分 析 ， 使 用 在 长 度 为 
n 的 正则 表达 式 上 只 花费 O(n) 时 间 的 方法 9。。 所 得 结果 是 表达 式 树 ， 其 中 正则 天 达 式 每 个 符号 对 
应 着 一 个 顶点 (括号 不 必 出 现在 树 中 ， 括 号 只 引导 对 表达 式 的 语法 分 析 )。 

一 旦 有 了 正则 表达 式 的 表达 式 树 ， 就 能 逐步 从 下 到 上 整理 这 棵 树 ， 建 立 每 个 顶点 的 aNEA。 在 
3.23 布 所 见 的 正则 表达 式 转化 的 构造 规则 从 不 对 表达 式 树 的 任何 顶点 添加 超过 2 个 状态 和 4 个 千 弧 。 
因此 ， 所 得 到 的 a-NFA 的 状态 数 和 箭 弧 数 都 是 O(n)。 而 且 ， 在 语法 分 析 树 的 每 个 顶点 上 产生 这 些 元 
素 的 工作 量 都 是 常数 ， 只 要 处 理 每 个 子 树 的 函数 返回 指向 自动 机 的 初始 状态 和 接受 状态 的 指针 。 

结论 是 从 正则 表达 式 到 se-NFA 的 构造 花费 表达 式 规 模 的 线性 时 间 。 我 们 能 在 O(n3) 时 间 里 
从 nn 状态 e-NFA 中 消除 e 转 移 来 得 到 普通 NFA 而 不 增加 状态 数 。 但 继续 下 去 到 DFA 却 可 能 花费 指 
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4.3.2 测试 正则 语言 的 空 性 


乍 看 起 来 ， 问 题 “ 正 则 语言 2 是否 为 空 ? ”的 答案 是 显然 的 一 一 名 为 空 ， 而 所 有 其 他 正则 语 
言 都 不 空 。 但 是 ， 在 4.3 市 开始 时 曾 讨论 过 不 是 用 LL 中 串 的 明确 列表 来 陈述 问题 。 更 恰当 的 方式 
是 给 定 L 的 某 种 表示 ， 并 且 需 要 判定 这 个 表示 是 否 表示 语言 2。 

如 采 这 个 表示 是 任意 种 类 的 有 穷 自 动机 ， 则 空 性 问题 就 是 : 是 否 存在 从 初始 状态 到 某 个 接 
受 状 态 的 无 论 什 么 任意 路 径 。 如 果 这 样 的 路 径 存 在 ， 则 语言 是 非 空 的 ， 但 如 果 接 受 状 态 与 初始 
状态 都 是 隔绝 的 ， 则 语言 是 空 的 。 判 定 是 否 能 从 初始 状态 到 达 接 受 状态 ， 这 是 图 可 达 性 的 简单 
实例 ， 实 质 上 类 似 于 在 2.5.3 节 曾 讨论 过 的 s 封 团 性 的 计算 。 算 法 能 总 结 成 下 面 这 个 递归 过 程 。 

基础 : 初始 状态 确实 是 从 初始 状态 可 达 的 。 

归纳 : 如 果 状 态 g 是 从 初始 状态 可 达 的 ， 并 且 从 g 到 p 的 箭 弧 带 有 任意 标记 (输入 符号 或 
(者 自动 机 是 e-NFA))， 则 p 是 可 达 的 。 

用 这 种 方式 能 计算 可 达 状 态 集合 。 如 果 任 何 接受 状态 在 里 面 ， 则 回答 “和 否 ”( 自 动机 的 语言 
不 为 空 )， 否 则 回答 “是 ”。 注 意 ， 如 果 自 动机 有 n 个 状态 ， 则 可 达 性 计算 花费 不 超过 O(n2) 时 间 ， 
事实 上 不 超过 与 自动 机 转移 图 中 箭 绝 数 成 比例 的 时 间 ， 这 可 能 小 于 冯 而 不 可 能 超过 OUz2)。 

如 采 给 定 表 示 语 言 Z 的 正则 表达 式 而 不 是 自动 机 ， 则 可 把 表达 式 转 化 成 ENEA， 然 后 如 上 述 
继续 下 去 。 从 长 度 为 n 的 正则 表达 式 得 到 的 自动 机 至 多 有 O(n) 个 状态 和 转移 ， 所 以 算法 花费 O(n) 
时 间 。 

但 是 ， 也 能 检查 正则 表达 式 来 判定 其 是 否 为 空 。 首 先 注 意 如 果 表 达 式 不 出 现 C， 则 语言 肯 
定 不 空 。 如 果 存 在 如 ， 则 语言 既 可 能 空 也 可 能 不 空 。 下 列 递归 规则 区 分 正则 表达 式 是 否 表示 空 
语言 。 

基础 : 如 表示 空 语言 ，e 和 a (对 于 任意 输入 符号 a) 不 表示 空 语言 。 

归纳 : 假设 R 是 正则 表达 式 。 有 四 种 情况 要 考虑 ， 对 应 于 可 能 构造 R 的 方式 。 

1.R=Ri+ R,。 则 L(R) 为 空当 且 仅 当 L(RI) 和 L(R2) 都 为 空 。 

2.R= RIR;:。 则 ZL(R) 为 空当 且 仅 当 L(R1) 或 L(R;,) 为 空 。 

3.R= R"1。 则 ZL(R) 不 为 空 ，L(R) 总 是 至 少 包 含 e。 

4.R= (Ri1)。 则 ZL(R) 为 空当 且 仅 当 L(R1) 为 空 ， 因 为 二 者 是 相同 的 语言 。 


4.3.3 测试 正则 语言 的 成 员 性 


下 一 个 重要 问题 是 : 给 定 串 w 和 正则 语言 L，w 是 否 属于 L。w 是 用 明确 方式 表示 的 ,但 L 是 用 
自动 机 或 正则 表达 式 来 表示 的 。 

如 果 Z 是 用 DFA 表 示 的 ， 则 算法 是 简单 的 。 从 初始 状态 开始 ， 模 拟 DFA 处 理 输入 符号 串 w。 
如 果 DFA 在 接受 状态 结束 ， 则 回答 “是 ”， 否 则 回答 “ 否 ”。 这 个 算法 非常 快 。 如 果 Iwl = n， 用 适 
当 数 据 结 构 (比如 用 二 维 数组 作为 状态 转移 表 ) 表示 DFA， 则 每 个 转移 需要 常数 时 间 ， 整 个 测 
试 花费 O(n) 时 间 。 : 

如 果 L 有 除 DFA 外 的 其 他 表示 ， 则 可 能 转化 成 DFA 并 运行 上 述 测 试 。 这 个 方法 可 能 花费 表示 


规模 的 指数 时 间 ， 尽 管 是 Imw| 的 线性 时 间 。 但 是 ， 如 果 表 示 是 NFA 或 eseNFEA， 则 直接 模拟 NEFA 就 更 
简单 和 更 有 效 。 也 就 是 说 ,一 次 处 理 w 的 一 个 符号 ， 保 持 在 跟随 w 的 前 缀 标记 的 任何 路 径 之 后 
NFA 所 能 处 在 的 状态 集合 。 这 个 思想 如 图 2-10 所 示 。 

如 有 果 w 长 度 为 x，NFA 有 s 个 状态 ， 则 这 个 算法 运行 时 间 是 O(ns”)。 可 以 通过 下 面 的 方法 处 理 
每 个 输入 符号 : 取出 先前 的 状态 集合 (至 多 有 s 个 状态 )， 查 找 这 些 状态 中 每 个 的 后 继 。 取 得 每 
个 至 多 有 s 个 状态 的 至 多 s 个 集合 的 并 ， 这 花费 O(s”) 时 间 。 

如 霖 NFA 有 转移 ， 则 在 开始 模拟 之 前 必须 计算 se 封闭 性 。 然 后 每 个 输入 符号 a 的 处 理 有 两 个 阶 
段 ， 每 个 阶段 都 花费 O(s) 时 间 。 首 先 ， 取 出 先前 的 状态 集合 并 且 找 出 这 些 状 态 在 输入 符号 a 上 的 
后 继 。 然 后 ， 计 算 这 个 状态 集合 的 a 封闭 性 。 模 拟 的 初始 的 状态 集合 是 NFA 的 初始 状态 的 a 封闭 性 。 

最 后 ， 如 采 Z 的 表示 是 规模 为 * 的 正则 表达 式 ， 则 能 在 O(s) 时 间 里 转化 成 至 多 有 2s 个 状态 的 e- 
NFA 。 然 后 在 长 度 为 n 的 输入 w 上 花费 O(ns”) 时 间 执行 上 述 模 拟 。 


4.3.4 习题 


* 习题 4.3.1 给 出 算法 区 分 正则 语言 L 是 否 无 穷 。 提 示 : 用 泵 引 理 证 明 如 果 语 言 包 含 长 度 大 于 
某 个 下 限 的 任何 串 ， 则 这 个 语言 一 定 是 无 穷 的 。 
习题 4.3.2 给 出 算法 区 分 正则 语言 Z 是 否 至 少 包含 100 个 串 。 
习题 4.3.3 假设 L 是 带 字母 表 3 的 正则 语言 。 给 出 算法 区 分 是 否 L= 好 ， 即 字母 表 上 所 有 串 。 
习题 4.3.4 给 出 算法 区 分 两 个 正则 语言 LI 和 蕊 是 否 至 少 有 一 个 公共 串 。 
习题 4.3.5 ”对 于 相同 字母 表 上 的 两 个 正则 语言 LL 和 LL， 给 出 算法 区 分 是 否 存 在 5* 中 任何 串 
既 不 属于 Li 也 不 属于 LL。 


4.4 目 动 机 的 等 价 性 和 最 小 化 


与 前 面 的 问题 ( 空 性 和 成 员 性 ， 其 算法 是 相当 简单 的 ) 不 同 ， 两 个 正则 语言 的 两 个 描述 是 
人 否 其 实 定义 相同 语言 的 问题 涉及 到 相当 可 观 的 智力 技巧 。 在 本 节 中 ， 在 定义 相同 语言 的 意义 下 ， 
讨论 如 何 测试 正则 语言 的 两 个 描述 是 否 等 价 的。 这 个 测试 的 重要 后 果 是 存在 一 种 方法 把 DFA 最 
小 化 。 也 就 是 说 ， 能 取出 任意 DFA 并 求 出 状态 数 最 小 的 等 价 DFA。 事 实 上 ， 这 个 DFA 实 质 上 是 
惟一 的 : 给 定 任 何 两 个 等 价 的 最 小 状态 DFA， 总 是 能 找到 办 法 重新 命名 状态 ， 使 得 这 两 个 DFA 
成 为 相同 的 。 


4.4.1 测试 状态 的 等 价 性 


将 从 询问 关于 单个 DFA 的 状态 的 问题 开始 。 目 标 是 理解 两 个 不 同 状态 p 和 4 何 时 能 换 成 作用 
既 类 似 p 又 类 似 q 的 单个 状态 。 状 态 p 和 gq 是 等 价 的 ， 如 果 : 


。 对 于 所 有 输入 串 w，6(p,w) 是 接受 状态 当 且 仅 当 6(q,w) 是 接受 状态 。 


不 太 形 式 化 地 说 ， 仅 仅 通过 从 两 个 状态 之 一 开始 ， 询 问 当 自动 机 从 这 个 (未知 ) 状态 启动 时 ， 
给 定 的 输入 串 是 否 导致 接受 ， 这 样 做 不 可 能 在 等 价 状态 p 和 g 之 间 区 分 出 差别 。 注 意 ， 不 要 求 6 
(p,w) 和 6(q,w) 是 相同 的 状态 ， 只 要 求 要 么 都 是 接受 的 ， 要 么 都 是 非 接 受 的 。 


的 


如 果 两 个 状态 不 等 价 ， 则 说 二 者 是 可 区 分 的 。 换 句 话 说， 如 果 至 少 存在 一 个 串 w 使 得 5(p, W) 
和 6(q,w) 中 的 一 个 是 接受 的 而 另 一 个 是 非 接 受 的 ， 则 状态 p 与 状态 4q 是 可 区 分 的 。 


例 4.18 考虑 图 4-8 的 DFA， 在 本 例 中 ,将 把 其 转移 函数 称 为 6。 某 些 状 态 对 显然 不 是 等 价 的。 
例如 ,，C 和 G 是 不 等 价 的 ， 因 为 一 个 是 接受 的 而 男 一 个 不 是 。 也 就 是 说 ， 空 串 区 分 这 两 个 状态 ， 
因为 6(C, a2) 是 接受 的 而 6(G, a) 不 是 。 
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图 4-8 带 有 等 价 状态 的 自动 机 


考虑 状态 4 和 G。 串 s 不 区 分 这 三 者 ， 因 为 它们 都 是 非 接受 状态 。 串 0 不 区 分 这 二 者 ， 因 为 在 
输入 0 上 二 者 分 别 到 达 状 态 B 和 G， 这 些 状 态 都 是 非 接 受 的 。 同 样 ， 串 1 不 区 分 4 和 G，. 因 为 二 者 分 
别 到 达 F 和 E， 都 是 非 接受 的 。 但 是 ，01 区 分 4 和 G， 因 为 6(4, 01) = C，56(G, 01) = E，C 是 接受 
的 而 E 不 是 。 把 4 和 G 带 到 只 有 一 个 接受 状态 的 任何 串 都 足以 证 明 4 和 G 不 是 等 价 的 。 

相反 ， 考 虑 状态 4 和 E。A 和 E 都 不 是 接受 的 ， 所 以 s 不 区 分 这 二 者 。 在 输入 1 上 ， 二 者 都 到 达 
状态 F。 因此 ， 以 1 开头 的 输入 都 不 区 分 4 和 EE， 因 为 对 于 任意 串 x，6(4, 1x) = 6(E, 1x)。 

现在 考虑 状态 4 和 E 在 以 0 开头 的 输入 上 的 作用 。 二 者 分 别 到 达 状 态 B 和 及 。B 生 都 不 是 接受 
的 ， 所 以 串 0 本 身 不 区 分 4 和 E。 但 是 ，B 和 也 无 济 于 事 。 在 输入 1 上 二 者 都 到 达 C， 在 输入 0 上 二 
者 都 到 达 G。 因 此 ， 以 0 开头 的 所 有 输入 将 不 能 区 分 4 和 下 。 结 论 是 无 论 什么 输入 串 都 将 不 能 区 分 
A 和 E， 即 二 者 是 等 价 状态 。 口 


为 了 求 出 等 价 状态 ， 要 尽 最 大 努力 来 求 出 可 区 分 状态 对 。 如 果 根 据 下 面 描述 的 算法 来 做 彻 
底 搜 索 ， 则 几 是 没有 被 发 现 可 区 分 的 任意 状态 对 都 是 等 价 的 ， 这 可 能 是 令 人 吃惊 的 ， 但 却 是 真 
的 。 算 法 ( 称 为 填 表 算法 ) 递归 地 发 现 DFA 4 = (QO, ,6, go, 也 中 的 可 区 分 对 。 

基础 : 如 果 p 是 接受 状态 而 g 是 非 接受 的 ， 则 {p,q} 对 是 可 区 分 的 。 

归纳 : 设 p 和 4 是 满足 下 列 条 件 的 状态 : 使 得 对 于 某 个 输入 符号 a, +r = 6 (p, a) 和 s = 6 (q, qa) 是 
已 知 可 区 分 的 状态 对 。 则 {p, g} 是 可 区 分 的 状态 对 。 这 个 规则 有 意义 的 原因 是 一 定 存在 某 个 串 w 
区 分 r 和 s， 即 6(r, w) 和 6(s, w) 恰 有 一 个 是 接受 的 。 于 是 串 aw 一 定 区 分 p 和 gq， 因 为 6(p, aw) 和 6é(g， 
aw) 与 6(r, w) 和 6(s,w) 是 相同 的 状态 对 。 





例 4.19 ”在 图 4-8 的 DFA 上 执行 填 表 算 法 。 最 终 的 表 如 图 4-9 所 示 ，x 表 示 可 区 分 状态 对 ， 空 


格 表示 已 经 发 现 等 价 的 状态 对 。 开 始 时 ， 表 中 没有 x。 

对 于 基础 ，C 是 惟一 的 接受 状态 ， 所 以 在 涉及 C 的 每 个 对 中 写 上 x。 既 然 知 道 了 一 些 可 区 分 
对 ， 就 能 发 现 其 他 可 区 分 对 。 例 如 ，{C, 丰 是 可 区 分 的 ,在 输入 
0 上 状态 E 和 F 分 别 到 达 太 和 C， 所 以 知道 {E, F} 也 是 可 区 分 对 。 事 
实 上 ， 只 通过 在 0 或 1 上 查看 状态 对 的 转移 ， 并 注意 到 (对 于 这 些 
输入 之 一 ) 一 个 状态 到 达 C 而 另 一 个 不 到 达 C， 就 能 求 出 图 4-9 中 
除了 {4, G} 和 {EF, G} 对 之 外 的 所 有 x。 在 下 一 轮 能 证 明 {A, G} 和 
{E, G} 是 可 区 分 的 ， 在 输入 1 上 4 和 E 到 达 F 而 G 到 达 E， 而 且 已 经 
证 明了 {E, Ff} 对 是 可 区 分 的 。 

但 是 ， 在 这 之 后 就 不 能 发 现 更 多 的 可 区 分 对 了 。 三 个 剩余 对 eR sb se A A 
(因此 都 是 等 价 对 ) 是 {4, EE}, {B, 本}, {D, F}。 例 如 ， 考 虑 为 什么 。 图 49 状态 非 等 价 性 的 表 
不 能 推出 {4, E} 是 可 区 分 对 。 在 输入 0 上 ，A 和 EE 分别 到 达 8B 和 及， 还 没有 证 明 {8, 友 是 可 区 分 的 。 
在 输入 1 上 ，A 和 EE 都 到 达 ， 所 以 这 种 办 法 没有 希望 区 分 这 二 者 。 将 永远 不 能 被 区 分 其 他 两 个 对 
{8B, H} 和 {D, F}， 因 为 它们 中 的 每 个 对 都 在 0 上 有 相同 转移 并 在 1 上 有 相同 转移 。 因 此 ， 填 表 算 法 
停止 在 如 图 4-9 所 示 的 表 上 ， 这 是 对 等 价 状态 和 可 区 分 状态 的 正确 决定 。 口 





定理 4.20 如果 通 过 填 表 算法 不 能 区 分 两 个 状态 ， 则 这 两 个 状态 是 等 价 的 。 

证 明 再 次 假设 讨论 的 是 DFA A = (Q， 5, 6, qo, F)。 假 设 定理 为 假 ， 也 就 是 说 ， 至 少 存在 一 
个 状态 对 {p,q}， 使 得 

1. 在 存在 某 个 串 w 使 得 5p,w) 和 5(g,w) 恰 有 一 个 接受 的 意义 下 ， 状 态 p 和 4 是 可 区 分 的 ; 但 

2. 填 表 算法 没有 发 现 p 和 4 是 可 区 分 的 。 
把 这 样 的 状态 对 称 为 坏 对 。 

如 果 存 在 坏 对 ， 则 一 定 存 在 用 区 分 坏 对 的 串 中 最 短 的 串 就 能 区 分 的 一 些 坏 对 。 设 {p, 9} 是 
一 个 这 样 的 坏 对 ， 并 设 w = aa…a 是 区 分 p 和 g 的 最 短 的 串 。 则 6(p, w) 和 56(q; w) 中 恰 有 一 个 是 
接受 的 。 

首先 注意 w 不 可 能 是 es， 因 为 如 果 s 区 分 一 对 状态 ， 则 填 表 算法 的 基础 部 分 标记 这 对 状态 。 因 
此 n 宇 1。 

考虑 状态 r = 6(p, a1) 和 s = 6(q, a1)。 串 azas3…an 可 区 分 状态 r 和 s， 因 为 这 个 串 把 r 和 s 带 到 状态 6 
(p, w) 和 6(q, WwW。 但 是 ， 区 分 r 和 s 的 这 个 串 比 区 分 坏 对 的 任何 串 都 要 短 。 因 此 ，fr, s} 不 可 能 是 坏 
对 。 更 恰当 地 说 ， 填 表 算法 一 定 已 经 发 现 r 和 * 是 可 区 分 的 。 

但 填 表 算法 的 归纳 部 分 将 不 停止 ， 直 到 已 经 推出 p 和 4g 是 可 区 分 的 为 止 ， 因 为 算法 发 现 6(p; w) = 
r 和 6(q, al) = "是 可 区 分 的 。 已 经 与 坏 对 存在 的 假设 相 矛 盾 了 。 如果 不 存在 坏 对 ， 则 填 表 算法 区 
分 每 对 可 区 分 状态 ， 定 理 为 真 。 口 


4.4.2 测试 正则 语言 的 等 价 性 
填 表 算法 给 出 一 种 容易 的 方法 来 测试 两 个 正则 语言 是 否 相 同 。 假 设 语言 和 AM 各 自用 某 种 方 
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式 来 表示 ， 比 如 一 个 用 正则 表达 式 、 一 个 用 NFA。 把 各 自 表示 转化 成 DFA。 现 在 ， 想 像 一 个 


DFA 其 状态 是 L 和 M 的 DFA 的 状态 的 并 。 从 技术 上 说 ， 这 个 DEA 有 0 I 

两 个 初始 状态 ， 但 实际 上 就 测试 状态 等 价 性 而 言 ， 初 始 状 态 是 无 stan 人 0 (人 

关 紧 要 的 ， 所 以 让 任意 状态 作为 惟一 的 初始 状态 。 se 
现在 ， 使 用 填 表 算 法 来 测试 原来 两 个 DEA 的 初始 状态 是 否 等 


价 。 如 果 等 价 ， 则 LZL= M， 如 果 不 等 价 ， 则 区 去 M。 


例 4.21 ”考虑 图 4-10 中 的 两 个 DEFA。 每 个 DFA 都 接受 空 串 和 所 
有 以 0 结尾 的 串 ， 即 正则 表达 式 s + (0 + 1D70 的 语言 。 可 以 想像 图 
4-10 表 示 一 个 有 从 A 到 E 五 个 状态 的 DFA。 如 果 对 这 个 自动 机 应 用 
填 表 算法 ， 则 结果 如 图 4-11 所 示 。 

看 看 如 何 填写 表 。 首 先 在 恰 有 一 个 状态 接受 的 所 有 状态 对 中 
写 上 x。 事 实 上 没有 别 的 事情 可 做 。 剩 余 四 对 {4, C}, {4, D}, {C， 
D}, {8B,E} 俐 是 等 价 对 。 读 者 应 该 验证 在 填 表 算 法 的 归纳 部 分 中 没 
有 发 现 更 多 的 可 区 分 对 。 例 如 ， 对 于 图 4-11 的 表 ， 不 能 区 分 {A, DD} 
对 ， 因 为 在 0 上 A 和 D 都 到 达 自 身 ， 在 1 上 到 达 {B, E} 对 ， 还 没有 区 
分 8 和 E。 由 于 这 个 测试 发 现 4 和 C 等 价 ， 而 这 些 状态 是 原来 两 个 自 
动机 的 初始 状态 ， 所 以 结论 是 这 些 DFA 确 实 接受 相同 语言 。 ” 口 





Sr th 旭 





填 表 并 因而 判定 两 个 状态 是 否 等 价 的 时 间 是 状态 数 的 多 项 式 。 
如 果 存 在 "个 状态 ， 则 存在 (”] 即 n(n 一 1)/2 个 状态 对 。 在 一 轮 中 ， ”图 4-11 图 4-10 的 可 区 分 性 表 


考虑 所 有 状态 对 ， 看 看 是 否 已 经 发 现 其 后 继 对 中 有 一 对 是 可 区 分 的 ， 所 以 一 轮 肯定 花费 不 超过 
CO() 时 间 。 而 且 ， 如 果 在 某 轮 中 在 表 中 设 有 加 入 新 的 zx， 则 算法 结束 。 因 此 ， 存 在 不 超过 O(z2) 
轮 ，O(n) 肯 定 是 填 表 算法 运行 时 间 的 上 界 。 


但 是 ,更 仔细 的 算法 能 在 O(n 时 间 里 填 好 表 。 这 一 思想 是 对 于 每 对 状态 {7, s}， 初 始 化 “ 俯 
赖 ”{7, s} 的 这 些 {p,q} 对 的 表 。 也 就 是 说 ， 如 果 发 现 {7, s} 是 可 区 分 的 ， 则 {p,q} 是 可 区 分 的 。 在 
开始 时 通过 下 面 的 方式 建立 表 : 检查 每 对 状态 {p, 9}， 对 于 固定 多 个 输入 符号 中 的 每 个 4， 把 {p. 
9} 写 在 状态 对 {6(p, qd, 6(q, aq)} 的 表 上 ， 这 些 是 p 和 g 在 a 上 的 后 继 状 态 。 

如 果 最 终 发 现 {7, s} 是 可 区 分 的 ， 则 往 下 考虑 {7; s} 的 表 。 对 于 这 个 表 中 还 不 是 可 区 分 的 每 个 
对 ， 都 让 这 个 对 是 可 区 分 的 ， 并 把 这 个 对 放 到 必须 同样 检查 的 对 队列 让。 

这 个 算法 的 总 工作 量 与 表 的 长 度 之 和 成 比例 ， 因 为 在 每 一 次 里 ， 要 么 加 入 一 些 东 西 到 表 中 
(初始 化 )， 要 么 第 一 次 和 最 后 一 次 检查 表 的 成 员 ( 当 往 下 区 虑 已 经 发 现 可 区 分 的 对 的 表 时 )， 由 
于 认为 输入 字母 表 规模 是 常数 ， 所 以 每 个 状态 对 都 写 在 O(1) 个 表 中 。 存 在 O(n 个 状态 ， 所 以 总 
工作 量 是 O(n?)。 


4.4.3 DFA 最 小 化 


测试 状态 等 价 性 的 男 一 个 重要 意义 在 于 能 把 自动 机 “最 小 化 ”。 也 就 是 说 ， 对 于 每 个 DFA， 


能 求 出 在 接受 相同 语言 的 任意 DFA 中 具有 最 少 状态 数 的 等 价 DFA。 而 且 ， 除 了 能 用 所 选择 的 无 
论 什 么 名 字 来 称呼 状态 这 一 点 之 外 ， 对 于 语言 来 说 这 个 最 小 状态 自动 机 是 惟一 的 。 算 法 如 下 : 

1. 排除 所 有 不 能 从 初始 状态 到 达 的 状态 。 

2. 把 剩 下 的 状态 划分 为 块 ， 同 一 块 中 的 状态 都 是 等 价 的 ， 并 且 不 同 块 中 的 两 个 状态 一 定 不 
等 价 。 下 面 的 定理 4.24 显 示 我 们 总 是 可 以 这 样 划分 的 。 


例 4.22 考虑 图 4-9 中 的 表 ， 在 该 表 中 对 图 4-8 的 状态 决定 了 状态 的 等 价 性 和 可 区 分 性 。 在 


消除 了 从 初始 状态 出 发 不 可 达 的 状态 (D) 之 后 ， 状 态 划 分 成 的 等 价 块 是 ({4, E}, {8B, H}, {C}， 


{Ff}, {G)))。 注 意 ， 等 价 的 两 对 状态 每 一 对 都 一 起 放 在 一 个 块 中 ， 而 与 其 余 所 有 状态 都 可 区 分 的 
每 个 状态 各 自 都 目 成 一 块 。 

对 于 图 4-10 中 的 自动 机 ， 划 分 是 (4, C, D}, {8,E})。 这 个 例子 说 明 在 一 块 中 能 有 超过 两 个 状 
态 。A, C, D 能 一 起 存在 于 一 个 块 中 ， 这 似乎 是 音 运 的 ， 因 为 它们 每 个 对 都 是 等 价 的 ， 而 其 中 任 
何 一 个 又 不 等 价 于 任何 其 他 状态 。 但 是 ， 在 将 要 证 明 的 下 一 个 定理 中 我 们 看 到 ， 这 种 情况 是 状 
态 ” 等 价 性 “定义 所 保证 的 。 


口 
定理 4.23 状态 等 价 性 是 传递 的 。 也 就 是 说 ， 如 果 在 某 个 DFA A = (Q, >, 6, qo, fF) 上 发 现状 态 
P 和 9% 是 等 价 的 ， 并 且 发 现状 态 * 和 "是 等 价 的 ， 则 状态 p 和 7 是 等 价 的 。 
证 明 ”注意 传递 性 是 期 望 任何 所 谓 “ 等 价 ” 关 系 都 具有 的 性 质 。 但 是 ， 只 是 称 某 个 东西 
“等 价 ”并 不 就 让 这 个 东西 传递 ， 必 须 证 明 这 个 名 称 是 正当 的 。 


假设 {p, 9} 对 和 {9g, 7} 对 都 是 等 价 的 ， 但 {p, 六 对 是 可 区 分 的 。 于 是 ， 存 在 某 个 串 w 使 得 5， 


w) 和 6(r, w) 恰 有 一 个 是 接受 状态 。 根 据 对 称 性 ， 不 妨 假设 5, w) 是 接受 状态 。 

现在 考虑 6(g, w) 究 竟 是 不 是 接受 状态 。 如 果 6(q, w) 是 接受 状态 ， 则 {4q, r} 是 可 区 分 的 ， 因 
为 6(q, w) 是 接受 状态 而 56(r, w) 不 是 。 如 果 6(q, w) 是 非 接受 的 ， 则 由 于 类 似 的 理由 {p, 9} 是 可 区 分 
的 。 用 归 雇 法 得 出 {p,7} 是 不 可 区 分 的 ， 因 此 这 个 对 是 等 价 的 。 口 


可 用 定理 4.23 来 证 明 划 分 状态 的 明显 算法 的 正当 性 。 对 于 每 个 状态 9， 构 造 由 g 和 与 9 等 价 的 
所 有 状态 组 成 的 块 。 必 须 证 明 得 到 的 块 是 划分 ， 即 没有 状态 属于 两 个 不 同 的 块 。 

首先 ， 注 意 任意 块 中 所 有 状态 都 是 互相 等 价 的 。 也 就 是 说 ， 如 果 p 和 "是 与 4 等 价 状态 块 中 的 
两 个 状态 ， 则 根据 定理 4.23，p 和 r 是 彼此 等 价 的 。 

假设 存在 两 个 重 又 但 不 相等 的 块 。 也 就 是 说 ， 存 在 包含 状态 p 和 gq 的 块 8， 以 及 包含 p 但 不 包 
含 q 的 另 一 个 块 C。 因 为 p 和 gq 都 属于 同一 块 ， 所 以 它们 是 等 价 的。 考虑 如 何 形成 块 C。 如 果 p 产 生 
块 C， 则 gq 应 当 属于 C， 因 为 这 些 状态 是 等 价 的 。 因 此 ， 一 定 是 存在 着 某 个 第 三 状态 ;产生 块 C， 
即 C 是 与 ;等 价 的 状态 集合 。 

已 知 p 等 价 于 s， 因 为 p 属 于 块 C。 还 已 知 p 等 价 于 gq， 因 为 都 一 起 属于 块 B。 根 据 定理 4.23 的 传 
递 性 ，g 等 价 于 s。 但 这 样 一 来 q 就 属于 块 C， 蔬 盾 。 结 论 是 状态 等 价 性 划分 了 状态 ， 也 就 是 说 ， 
两 个 状态 要 么 具有 相同 的 等 价 状态 集合 (包含 其 本 身 在 内 ) ， 要 么 其 等 价 状态 是 不 相交 的 。 上 述 
分 析 的 结论 是 : 
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定理 4.24 ”如 果 对 于 DFA 每 个 状态 gq 建立 由 g 和 与 9 等 价 的 所 有 状态 组 成 的 块 ， 则 不 同 的 状态 
块 形成 状态 集合 的 划分 ”。 也 就 是 说 ， 每 个 状态 恰好 属于 一 个 块 。 同 一 块 中 所 有 成 员 都 是 等 价 
的 ， 从 不 同 块 中 选择 的 状态 对 都 不 是 等 价 的 。 口 


现在 能 够 简洁 地 叙述 把 DFA A = (0,>,6, go, 卫 ) 最 小 化 的 算法 了 。 

1. 用 填 表 算法 找 出 所 有 等 价 状态 对 。 

2. 用 上 述 方法 把 状态 集合 C 划 分 成 互相 等 价 的 状态 的 块 。 

3. 用 块 作 为 状态 来 构造 最 小 状态 等 价 DFA B。 设 y 是 B 的 转移 函数 。 假 设 5 是 A 的 等 价 状态 集 
合 ，a 是 输入 符号 。 则 一 定 存在 一 个 状态 块 T 使 得 对 于 S 中 所 有 状态 9 ，6(q,q) 是 块 7 的 成 员 。 
因为 假如 不 是 这 样 ， 则 输入 符号 a 把 5 中 两 个 状态 p 和 gq 带 到 不 同 块 中 ， 根 据 定理 4.24， 这 些 
状态 是 可 区 分 的 。 这 个 事实 允许 得 出 p 和 4 是 等 价 的 且 不 能 同属 于 5 的 结论 。 结 果 是 可 设 
XS, a) =T。 男 外 : 

(qa) B 的 初始 状态 是 包含 4 的 初始 状态 的 块 。 

(b) B 的 接受 状态 是 包含 4 的 接受 状态 的 块 。 注 意 ， 如 果 块 中 一 个 状态 是 接受 的 ， 则 这 个 
块 中 所 有 状态 一 定 都 是 接受 的 。 原因 是 任何 接受 状态 与 任何 非 接受 状态 都 是 可 区 分 的 ， 
所 以 不 能 让 接受 状态 和 非 接受 状态 同属 于 一 个 等 价 状态 块 。 


例 4.25 把 图 4-8 中 的 DFA 最 小 化 。 在 例 4.22 中 建立 了 状态 划分 块 。 图 4-12 说 明 最 小 状态 自动 
机 。 最 小 状态 自动 机 的 五 个 状态 对 应 于 图 4-8 中 的 自 
动机 的 五 个 等 价 状 态 块 。 

急 始 状态 是 {4, E}， 因 为 4 是 图 4-8 的 初始 状态 。 
惟一 的 接受 状态 是 {C}， 因 为 C 是 图 4-8 惟 一 的 接受 状 
态 。 注 意 ， 图 4-12 中 的 转移 恰当 地 反映 出 图 4-8 中 的 转 
移 。 例 如 ， 图 4-12 在 输入 0 上 有 从 {4, E} 到 {8B, 下 的 转 
移 。 这 是 有 意义 的 ， 因 为 在 图 4-8 中 ， 在 输入 0 上 A4 到 
达 B，E 到 达 及 。 同 样 ， 在 输入 1 上 {4, E} 到 达 {D, F}。 
如 果 检 查 图 4-8， 就 会 发 现在 输入 1 上 4 和 E 都 到 达 F， 
所 以 在 输入 1 上 对 {4,E} 后 继 的 选择 也 是 正确 的 ,注意 ， 
在 输入 1 上 4 和 E 都 不 到 达 D 的 事实 是 不 重要 的 。 读 者 
可 验证 所 有 其 他 转移 也 都 是 正确 的 。 口 图 4-12 等 价 于 图 4-8 的 最 小 状态 DFA 


4.4.4 为 什么 不 能 比 最 小 DFA 更 小 


假设 有 DEFA 4， 用 定理 4.24 的 划分 方法 把 4 最 小 化 来 构造 DEFA M。 这 个 定理 说 明 不 能 把 4 的 状 
态 分 成 更 少 的 组 而 仍然 得 到 等 价 DFA。 但 是 ， 能 否 存在 另 一 个 与 4 无 关 的 DFA N 接 受 与 4 和 MM 相 
同 的 语言 但 比 M 状 态 要 少 ? 用 归 雇 法 就 能 证 明 N 不 存在 。 





自 先 ， 在 M 和 N 上 一 起 运行 4.4.1 节 的 状态 可 区 分 性 过 程 ， 就 好 像 M 和 N 是 一 个 DFA 那 样 。 可 


日 ”读者 应 当 记 住 ， 从 不 同 状 态 开始 ， 可 能 多 次 形成 相同 的 块 。 但 是 ， 划 分 由 不 同 的 块 组 成 ， 所 以 这 个 块 在 划分 
中 只 出 现 一 次 。 


J 


假设 M 和 NN 的 状态 没有 公共 名 字 ， 所 以 组 合 自动 机 的 转移 函数 是 M 和 NN 的 转移 规则 的 不 相交 的 并 。 
状态 在 组 合 自动 机 中 是 接受 的 当 且 仅 当 状态 在 原来 的 自动 机 中 是 接受 的 。 

M 和 NN 的 初始 状态 都 是 不 可 区 分 的 ， 因 为 LM) = LCN)。 男 外 ， 如 果 {p, 9} 是 不 可 区 分 的 ， 则 
其 后 继 在 任意 一 个 输入 符号 上 也 是 不 可 区 分 的 。 原 因 是 假如 能 区 分 后 继 ， 则 应 该 能 区 分 p 和 gq。 

M 和 NN 都 没有 不 可 达 状 态 ， 否 则 就 可 消除 这 个 状态 而 对 同样 语言 得 到 更 小 的 DFA。 因 此 ，M 
的 每 个 状态 至 少 与 N 的 一 个 状态 是 不 可 区 分 的 。 为 了 看 出 为 什么 , 假设 p 是 M 的 状态 。 于 是 存在 
某 个 串 a1a2…ax 把 M 的 初始 状态 带 到 状态 p。 这 个 串 也 把 N 的 初始 状态 带 到 某 个 状态 9。 因 为 已 知 
饮 始 状态 是 不 可 区 分 的 ， 所 以 知道 其 后 继 在 输入 符号 a 上 也 是 不 可 区 分 的 。 于 是 ， 这 些 状 态 的 
后 继 在 输入 符号 a 上 是 不 可 区 分 的 ， 依 此 类 推 ， 直 到 得 出 结论 p 和 gq 是 不 可 区 分 的 为 止 。 

因为 NE 比 M 状 态 要 少 ， 所 以 存在 两 个 M 状 态 与 同一 个 NN 状态 是 不 可 区 分 的 ， 因 此 互相 不 可 区 
分 。 但 已 经 把 M 设 计 成 所 有 状态 都 是 互相 可 区 分 的 。 这 样 就 得 出 了 矛盾 ， 所 以 假设 N 存 在 就 是 错 
的 ， 并 且 MM 事 实 上 不 比 4 的 任意 等 价 DFA 具 有 更 多 的 状态 。 形 式 化 地 说 ， 已 经 证 明了 定理 4.26。 


定理 4.26 如果 A 是 DFA，M 是 通过 定理 4.24 叙 述 中 所 描述 的 算法 从 4 构造 的 DFA， 则 MM 不比 
与 4 等 价 的 任意 DFA 具 有 更 多 的 状态 。 加 


事实 上 ， 我 们 可 以 说 甚至 比 定理 4.26 更 强 的 一 些 东 西 。 在 任何 其 他 最 小 状态 N 与 DFA M 的 状态 之 
则 一 定 存在 着 一 一 对 应 。 原 因 是 上 面 论证 过 M 的 每 个 状态 如 何 一 定 等 价 于 N 的 一 个 状态 ， 没 有 M 的 状 
态 能 等 价 于 N 的 两 个 状态 。 我 们 同样 可 以 论证 没有 NN 的 状态 能 等 价 于 M 的 两 个 状态 ， 但 每 个 N 的 状态 
一 定 等 价 于 一 个 M 的 状态 。 因 此 ， 除 了 可 能 重新 命名 状态 之 外 ， 与 4 等 价 的 最 小 状态 DEFA 是 惟一 的 。 


NFA 的 状态 最 小 化 


读者 可 能 想像 把 DFA 状 态 最 小 化 的 同样 技术 也 许 能 用 来 求 出 与 给 定 NFA 或 DFA 等 价 的 
最 小 状态 NFA。 尽 管用 穷 举 枚 举 过 程 能 求 出 接受 给 定 正则 
语言 的 状态 最 少 的 NEA ， 但 只 把 语言 的 某 个 给 定 NFA 的 状 
态 分 组 却 不 能 求 出 这 样 的 NFA。 

一 个 例子 在 图 4-13 中 。 三 个 状态 都 不 等 价 。 接 受 状态 B 


0,1 


与 非 接 受 状态 4 和 C 肯 定 是 可 区 分 的 。 但 是 ， 输 入 0 不 能 区 
分 4 和 C。C 的 后 继 只 有 A， 不 包括 接受 状态 ， 而 4 的 后 继 是 
{4, 8}， 包 括 接受 状态 。 因 此 ， 把 等 价 状态 分 组 并 不 减少 
图 4-13 中 的 状态 数 。 图 4-13 不 能 用 状态 等 价 性 
不 过 ， 如 采 只 删除 状态 C， 就 能 求 出 同一 语言 的 更 小 的 来 最 小 化 的 NFA 
NFA。 注 意 ， 仅 4 和 8 就 接受 所 有 以 0 结尾 的 串 ， 而 添加 状态 C 并 不 允许 接受 任何 其 他 的 串 。 





4.4.5 习题 


* 习题 4.4.1 图 4-14 中 是 DFA 的 转移 表 。 
a) 画 出 这 个 自动 机 的 可 区 分 性 表 。 
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we b) 构造 最 小 状态 的 等 价 DFA。 
165 习题 4.4.2 对 于 图 4-15 中 的 DFA 重 做 习题 4.4.1。 
!! 习题 4.4.3 假设 p 和 4 是 有 7 个 状态 的 给 定 DFA 4 的 可 区 分 状态 。 作 为 n 的 函数 ， 区 分 p 和 g 的 最 
短 的 串 的 长 度 的 紧 上 界 是 多 少 ? 
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图 4-14 有 待 最 小 化 的 DFA 图 4-15 另 一 个 有 待 最 小 化 的 DFA 
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“和 泵 引 理 :如 末 语 言 是 正则 的 ， 则 这 个 语言 中 每 个 足够 长 的 串 都 有 非 空子 串 能 被 “抽取 ”， 
也 就 是 说 ， 这 个 子 串 重复 任意 多 次 所 得 到 的 串 也 在 语言 中 。 这 个 事实 能 用 来 证 明 许 多 不 同 
的 语言 不 是 正则 的 。 

“保持 是 正则 语言 的 性 质 的 运算 : 有 许多 运算 在 作用 到 正则 语言 时 产生 正则 语言 作为 结果 ， 其 
中 有 并 、 连 接 、 封 闭 性 、 交 、 补 、 差 、 反 转 、 同 态 〈 用 相关 串 替换 每 个 符号 ) 和 逆 同 态 等 。 
“测试 正则 语言 的 空 性 : 存在 算法 对 于 给 定 正则 语言 的 表示 (比如 自动 机 或 正则 表达 式 ) 来 
区 分 所 表示 的 语言 是 否 为 空 集合 。 

* 测试 正则 语言 的 成 员 性 : 存在 算法 对 于 给 定 的 串 和 正则 语言 的 表示 来 区 分 这 个 串 是 否 属于 
这 个 语言 。 

“测试 状态 可 区 分 性 : 如 果 存 在 输入 串 把 两 个 状态 中 恰好 一 个 带 到 接受 状态 ， 则 DEA 的 这 两 
[166] 个 状态 是 可 区 分 的 。 由 一 个 接受 状态 和 一 个 非 接受 状态 组 成 的 对 是 可 区 分 的 ， 单 从 这 个 事 
实 出 发 , 通过 寻找 其 后 继 在 一 个 输入 符号 上 可 区 分 的 对 , 来 尝试 发 现 更 多 的 可 区 分 状态 对 ， 
就 能 发 现 所 有 可 区 分 状态 对 。 

* 把 确定 型 有 穷 自动 机 最 小 化 ， 能 把 任意 DFA 的 状态 划分 成 互相 不 可 区 分 状态 的 组 。 两 个 不 
同 组 的 成 员 总 是 可 区 分 的 。 如 果 用 单个 状态 替换 每 个 组 ， 则 得 到 相同 语言 的 状态 数 最 少 的 
167 等 价 DFA。 


4.6 参考 文献 


除了 殉 林 [6] 证 明 过 的 正则 表达 式 的 明显 封闭 性 (并 、 连 接 和 星 号 ) 之 外 ， 几 乎 所 有 关于 正 
则 语言 封闭 性 的 结果 都 模仿 关于 上 下 文 无 关 语 言 (在 第 $ 章 中 研究 的 语言 类 ) 的 类 似 结果 。 因 此 ， 
正则 语言 的 泵 引 理 是 Bar-Hillel、Perles、Shamir[1] 关 于 上 下 文 无 关 语 言 的 对 应 结果 的 简化 版 本 。 
同一 篇 文章 间接 给 出 本 章 证 明 的 其 他 几 种 封闭 性 。 不 过 ， 对 逆 同 态 封 闭 的 结果 出 自 [2]。 

在 习题 4.2.2 中 介绍 的 商 运算 出 自 [3]。 事 实 上 ， 这 篇 文章 讨论 用 任意 正则 语言 替换 单个 符号 a 
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的 较 一 般 运 算 。 从 习题 4.2.8 开 始 、 在 正则 语言 中 串 的 前 半 段 上 作用 的 “部 分 删除 ”类 型 的 系列 
运算 始 于 [8]。Seiferas 和 McNaughton[9] 解 决 了 删除 运算 何 时 保持 正则 语言 的 一 般 情形 。 

诸如 正则 语言 的 空 性 、 有 穷 性 和 成 员 性 这 样 的 原始 的 判定 算法 出 自 [7]。 把 DFA 状 态 最 小 化 
的 算法 出 现在 [7] 和 [5] 中 。 求 最 小 状态 DFA 的 最 有 效 算法 在 [各 中。 
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第 5 章 上 下 文 无 关 文 法 及 
上 下 文 无 关 语 言 


现在 我 们 把 注意 力 从 正则 语言 转移 到 另外 一 大 类 语言 上 来 ,它们 被 称 作 “上 下 文 无 关 语 言 ”。 
这 类 语言 有 着 自然 的 递归 记号 ， 这 种 记号 被 称 作 “ 上 下 文 无 关 文法 ”。 从 20 世 纪 60 年 代 以 来 ， 上 
下 文 无 关 文 法 一 直 在 编译 技术 中 扮演 着 重要 的 角色 。 它 们 能 够 把 语法 分 析 器 (一 类 用 来 在 编译 
过 程 中 发 现 源 程序 结构 的 函数 ) 的 实现 从 一 种 费时 的 、 独 特 的 设计 工作 转变 成 一 种 能 够 很 快 完 
成 的 工作 。 近 年 来 ， 上 下 文 无关 文 法 也 被 用 来 描述 文档 格式 : XML (eXtensible Markup 
Language， 可 扩展 标记 语言 ) 中 使 用 的 DTD (Document-Type Definition， 文 档 类 型 定义 ) 就 是 
用 来 描述 Web 上 的 信息 交换 格式 的 。 

在 本 章 中 ， 我 们 将 首先 介绍 上 下 文 无 关 文 法 的 记号 ， 然 后 将 介绍 怎样 用 文法 来 定义 语言 。 
我 们 将 会 讨论 到 “语法 分 析 树 ”一 对 一 个 文法 处 在 它 所 表示 的 语言 的 字符 串 中 结构 的 图 形 描 述 。 
语法 分 析 树 是 一 个 编程 语言 的 语法 分 析 器 的 产物 ， 也 是 通常 用 来 获得 程序 结构 的 途径 。 

上 下 文 无 关 语言 还 有 另外 一 种 等 价 的 自动 机 记号 ， 称 作 下 推 目 动机 ”， 它 描述 并 且 只 描述 
所 有 的 上 下 文 无 关 语言 。 我 们 将 在 第 6 章 介绍 下 推 自 动机 。 虽 然 它 不 如 有 穷 自动 机 重要 ， 但 我 们 
会 发 现 : 作为 一 种 语言 的 定义 机 制 ， 在 探讨 第 7 章 中 的 上 下 文 无 关 语 言 的 封闭 性 和 判定 性 质 时 ， 
下 推 目 动机 (特别 是 它 与 上 下 文 无 关 文 法 的 等 价 性 ) 是 非常 有 用 的 。 


5.1 上 下 文 无 关 文法 


本 章 的 内 容 将 从 非 形式 化 地 介绍 上 下 文 无 关 文 法 的 表示 法 开始 。 形 式 化 的 定义 会 在 读者 了 
解 到 这 些 文法 的 一 些 重要 的 能 力 之 后 给 出 。 届 时 将 会 说 明 怎样 形式 化 地 定义 一 个 文法 ;并 将 介 
绍 一 种 “推导 ”过 程 : 它 能 够 决定 在 一 个 文法 的 语言 中 到 底 有 哪些 串 。 


5.1.1 一 个 非 形式 化 的 例子 


下 面 来 考虑 一 个 回 文 (palindrome) 的 语言 。“ 回 文 ”是 指正 向 和 反 向 读 起 来 都 一 样 的 字符 串 ， 
比如 otto 或 者 mnadamimadam (“Madam, Tm Adam”， 引 自 夏 娃 在 伊甸园 里 听 到 的 第 一 句 话 ) 。 换 
句 话说 ， 串 w 是 一 个 回 文 当 且 仅 当 w = w*。 为 了 使 问题 简单 些 ， 只 考虑 描述 字母 表 {0, 1} 上 的 回 文 ， 
这 个 语言 包括 0110，11011 这 样 的 串 ， 也 包括 空 串 es， 但 不 包括 011 或 0101 这 样 的 串 。 

很 容易 验证 这 个 0 和 1 上 的 回 文 语言 Zou 不 是 正则 语言 ， 要 做 到 这 点 只 需要 使 用 和 泵 引 理 即 可 ， 
如 采 Zou 是 一 个 正则 语言 ， 令 n 是 与 其 相关 的 常数 ， 考 虑 回 文 串 w = 0"10r*。 如 果 La 是 正则 的 ， 那 
么 就 能 够 把 w 写 为 w = xyz， 使 得 y 由 第 一 组 中 一 个 或 车 干 个 0 构成 。 因 此 ， 如 果 Lw 是 正则 的 ， 那 
么 双 也 应 该 在 Pu 中 。 然 而 ， 由 于 xz 的 两 端的 0 的 个 数 不 同 ， 进 而 可 知 它 不 可 能 是 回 文 串 ， 由 此 得 
出 的 矛盾 可 以 推翻 前 面 关 于 zw 是 正则 语言 的 假设 。 

对 于 什么 样 的 0 和 1 串 在 La 里 ， 有 一 个 自然 的 递归 定义 ， 它 从 一 个 最 基本 的 显然 属于 Ly 中 的 
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串 开 始 ， 接 着 利用 一 个 最 直观 的 思想 ， 即 如 果 一 个 串 在 Pu 里， 那么 其 开头 和 结尾 的 字母 一 定 相 同 ， 
进一步 得 出 : 当 把 其 开头 和 结尾 的 字母 都 去 掉 以 后 ， 剩 下 的 串 一 定 也 是 回 文 。 具 体 写 出 来 就 是 : 

基础 : z:，0 和 1 都 是 回 文 。 

归纳 :如果 w 是 回 文 ， 那么 0w0 和 1w1 也 都 是 回 文 。 另 外 ， 除 了 由 上 面 的 基础 和 归纳 定义 出 
来 的 串 之 外 再 没有 0 和 1 的 回 文 。 

上 下 文 无 关 文 法 就 是 一 个 形式 化 的 表示 法 ， 它 可 用 来 表达 语言 的 这 种 递归 定义 。 一 个 文法 
丰 由 一 个 或 多 个 用 来 代表 字符 串 类 (也 就 是 语言 ) 的 变 元 构成 的 ， 在 这 个 例子 里 ,我 们 只 需要 
使 用 一 个 变 元 P， 它 用 来 代表 回 文 串 的 集合 〈 也 就 是 组 成 语言 Zou 的 串 类 ) 。 另 外 还 有 一 些 用 来 说 
明 如 何 构 造 每 个 类 中 的 串 的 规则 ， 构 造 既 可 以 使 用 字母 表 中 的 符号 ， 也 可 以 使 用 类 中 已 经 有 的 
串 ， 还 可 以 两 者 都 用 。 


例 5.1 图 5-1 给 出 了 定义 用 上 下文 无 关 文 法 表示 的 回 文 的 规则 。 这 些 规则 的 含义 将 在 5.1.2 节 
中 国明 。 4 £ 

前 三 条 规则 构成 了 基础 ， 它 们 说 明 回 文 的 串 类 中 包括 串 s，0 
和 1。 这 三 条 规则 的 右 端 (箭头 所 指 的 那 边 ) 都 没有 变 元 ， 这 也 是 





说 它们 构成 了 基础 的 原因 。 
后 两 条 规则 构成 了 定义 的 归纳 部 分 。 例 如 ， 规 则 4 是 说 : 如 果 ”图 5-1 回 文 的 上 下 文 无 关 文 法 
从 P 这 个 类 中 取出 串 w， 则 串 0w0 也 在 P 这 个 类 中 。 类 似 地 ， 规 则 5 说 明 1wl1 也 在 P 中 ，。 口 
5.1.2 上 下 文 无 关 文法 的 定义 
语言 的 文法 性 描述 包括 四 个 重要 部 分 : 


1. 一 个 符号 的 有 穷 集 合 ， 它 构成 了 被 定义 语言 的 串 。 在 上 面 回 文 的 示例 中 该 集合 为 {0, 1}， 
这 个 字母 表 称 为 终结 符 或 终结 符号 。 

2. 一 个 变 元 的 有 穷 集合 ， 变 元 有 时 也 称 为 非 终 结 符 或 语法 范畴 。 每 个 变 元 代表 一 个 语言 ， 
即 一 个 串 的 集合 。 在 上 面 的 例子 中 只 有 一 个 变 元 P， 它 被 用 来 代表 以 {0, 1} 为 字母 表 的 回 
文 串 类 ( 回 文 串 的 语言 )。 

3. 有 一 个 变 元 称 为 初始 符号 ， 它 代表 语言 开始 被 定义 的 地 方 。 其 他 变 元 代表 其 他 辅助 的 字 
符 串 类 ， 这 些 变 元 被 用 来 帮助 初始 符号 定义 该 语言 。 在 上 面 的 例子 中 ， 惟一 的 变 元 P 同 时 
也 是 初始 符号 。 

4. 一 个 产生 式 (或 者 规则 ) 的 有 穷 集 合 ， 它 用 来 表示 语言 的 递归 定义 。 每 个 产生 式 包 括 ; 
(a) 一 个 变 元 ， 它 被 该 产生 式 定义 或 者 部 分 定义 ， 这 个 变 元 通常 称 为 产生 式 的 头 。 

(b) 一 个 疡 年 式 符号 5 
(c) 一 个 包含 零 个 或 多 个 终结 符号 或 变 元 的 串 ， 它 叫 作 产生 式 的 体 ， 表 示 一 种 构成 产生 式 
头 变 元 的 语言 中 的 串 的 方法 。 有 具体 的 构造 过 程 是 : 保持 终结 符号 不 变 ， 把 任何 已 知 属 
于 该 语言 的 串 里 出 现 的 产生 式 的 头 用 产生 式 的 体 赫 换 。 
图 5-1 是 一 个 产生 式 的 例子 。 
上 面 给 出 的 四 个 部 分 构成 了 一 个 上 下 文 无 关 文法 ， 简 称 文法 或 者 CFG。 一 个 CFG G 可 以 用 
组 成 它 的 四 部 分 表示 ， 记 作 G = (V, 7, P, 9)， 其 中 VY 是 变 元 (Variable) 的 集合 ， 7 是 终结 符号 
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(Terminal) 的 集合 ，P 是 产生 式 (Production) 的 集合 ，5 代 表 初 始 符号 (Start symb91)。 


例 5.2 回 文 的 文法 Gpa 可 以 表示 为 
Gpal ws ({P3; {0， 1},4, Py) 
其 中 4 表示 图 5$-1 中 所 示 的 五 个 产生 式 的 集合 。 站 


例 5.3 ”下 面 来 考虑 一 个 复杂 一 些 的 CFG ， 它 表示 典型 的 编程 语言 中 的 《简化 的 ) 表达 式 。 
首先 ， 运 算 符 限制 为 只 有 + 和 *， 分 别 用 来 表示 加 法 和 乘法 。 其 次 ;表达 式 中 人 允许 有 标识 符 ， 但 
不 是 一 般 标 识 符 的 完整 的 集合 《字母 开头 ， 后 面 跟 有 零 个 或 多 个 字母 或 数字 ) 字母 仅 限 于 ea 和 
b， 数 字 仅 限于 0 和 1。 也 就 是 说 ， 每 个 标识 符 必 须 由 a 或 5b 开始， 后 面 可 以 跟着 任何 {a, b, 0, 1》 
中 的 串 。 

这 个 文法 中 需要 两 个 变 元 。 一 个 记 作 E， 代 表 表 达 式 (Expression)， 同 时 它 也 是 初始 符号 ， 
用 来 表示 所 要 定义 的 表达 式 的 语言 。 另 一 个 变 元 记 作 1， 代表 标识 符 (Identifier) ， 它 所 代表 的 语 
言 其实 是 正则 的 ， 也 就 是 下 面 的 正则 表达 式 所 表示 的 语言 ; 

(a+b)(a+b+0+1) 


然而 ， 在 文法 中 不 应 该 直接 使 用 正则 表达 式 。 不 过 ， 我 们 可 以 用 一 系列 的 产生 式 来 表示 和 这 个 
正则 表达 式 所 表示 的 实质 上 一 样 的 东西 。 

这 个 描述 表达 式 的 文法 可 以 形式 化 地 记 为 G = ({E, 7, 7, P, B)， 
其 中 7 是 终结 符号 的 集合 {+, *, (, ); a, b, 0, 1}，P 是 图 5-2 中 所 示 的 产 
生 式 的 集合 。 下 面 是 对 这 些 产生 式 的 解释 。 

规则 (1) 是 表达 式 的 基础 规则 ， 说 的 是 一 个 表达 式 可 以 是 单个 标 
识 符 。 规 则 (2) 到 (4) 描 述 了 表达 式 的 归纳 部 分 : 规则 (2) 说 明 一 个 表 
达 式 可 以 由 两 个 表达 式 中 间 用 加 号 连接 组 成 ， 规 则 (3) 和 (2) 类 似 ， 
不 过 把 加 号 换 成 了 乘 号 ， 规 则 (4 则 说 明 任何 由 一 对 括号 括 起 来 的 一 
个 表达 式 本 身 也 是 表达 式 。 图 5-2 简单 表达 式 的 

规则 (5) 到 (10) 定 义 了 标识 符 [。 其 中 规则 (5) 和 (6) 是 基础 部 分 一 a 上 下 文 无 关 文法 
和 都 是 标识 符 。 其 他 的 四 条 规则 是 归纳 部 分 ， 它 们 说 明 任 何 标识 符 后 面 再 加 上 a, b, 0, 1 中 
的 任何 一 个 所 得 到 的 结果 依然 是 标识 符 。 口 
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产生 式 的 简捷 表示 法 


把 产生 式 看 作 “ 属 和 于” 它 的 头 变 元 是 很 方便 的 ， 因 此 我 们 将 经 常 使 用 像 “4 的 产生 式 ” 
或 者 “A 产生 式 ” 这 样 的 记 法 来 表示 以 变 元 4 为 头 的 产生 式 。 有 了 时 也 通过 下 面 的 方法 来 书写 


一 个 文法 的 产生 式 : 每 个 变 元 只 在 产生 式 头 中 出 现 一 次 ， 而 在 该 产生 式 的 体 里 列 出 所 有 该 
变 元 的 产生 式 的 体 ， 并 且 用 坚 杠 分 隔 。 也 就 是 说 ， 产 生 式 组 4 一 a, 4 一 oz, …, 4 一 am 可 以 用 
下 面 的 记号 来 代替 : A 一 olaol…law。 举 例 来 说 ， 图 5-1 中 的 回 文 文法 可 以 写作 : P 一 se10111 
GPOTIPA., 








jw 
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5.1.3 使 用 文法 来 推导 


CFG 的 产生 式 可 以 用 来 推断 一 个 特定 的 串 确实 在 一 个 特定 的 变 元 的 语言 中 ， 这 样 的 推断 有 
两 种 方法 。 比 较 常规 的 一 种 方法 是 从 产生 式 的 体 到 产生 式 的 头 来 使 用 规则 。 也 就 是 说 ， 对 于 产 
生 式 的 体 中 的 变 元 ， 可 以 取出 一 个 已 知 属于 这 个 变 元 所 代表 的 语言 的 串 ， 然 后 把 得 到 的 串 按照 
正确 的 顺序 与 体 中 出 现 的 终结 符号 连接 起 来 ， 并 且 推 断 出 得 到 的 串 在 该 产生 式 的 头 中 的 变 元 的 
语言 中 。 这 种 方式 的 推理 称 为 递归 推理 。 

另 一 种 定义 一 个 文法 的 语言 的 方法 是 从 产生 式 的 头 到 体 来 使 用 规则 。 具 体 的 做 法 是 ， 使 用 
以 初始 符号 为 头 的 一 个 产生 式 来 扩展 初始 符号 ， 接 着 通过 替换 体 中 变 元 的 方式 来 扩展 所 得 到 的 
串 ， 具 体 赫 换 的 方式 是 用 一 个 以 该 变 元 为 头 的 产生 式 的 体 来 替换 该 变 元 。 继 续 这 个 过 程 ， 直 到 
得 到 的 字符 串 中 只 有 终结 符 。 这 个 文法 的 语言 就 是 所 有 能 用 这 种 方式 得 到 的 终结 符 串 。 这 种 使 
用 文法 的 方式 叫 作 推 导 。 

下 面 举 一 个 例子 来 说 明 第 一 种 方法 一 -递归 推理 。 然 而 ， 通 常用 推导 的 方法 来 考虑 文法 更 
加 自然 ， 因 此 紧 接着 就 会 给 出 描述 这 种 推导 的 表示 法 。 


例 5.4 考虑 一 些 使 用 图 5-2 中 的 文法 进行 推理 的 例子 ， 图 5-3 是 这 些 推 理 的 汇总 。 例 如 ， 第 
QD 行 说 明 可 以 通过 使 用 产生 式 5 来 推断 串 a 属 于 7 所 代表 的 语言 。 第 (直行 到 第 (iv) 行 说 明 可 以 推断 
b00 古 一 个 标识 符 (通过 使 用 产生 式 6 一 次 得 到 bp， 再 使 用 产生 式 9 两 次 就 能 得 到 后 面 的 两 个 0)。 


| 推理 得 出 的 串 [上 | 人 有 的 和 直 使 用 的 串 


5 
6 
9 
9 
1 
1 
2 
1 
3 


a * (a + b00) (v), (vi21) 


图 5-3 使 用 图 5-2 中 的 文法 进行 串 的 推理 


第 (V) 行 和 第 (vi) 行 利用 产生 式 1 推 断 出 以 下 结论 : 由 于 任何 标识 符 都 是 表达 式 ， 所 以 在 第 Gi) 
行 和 第 (iv) 行 中 推断 出 的 标识 符 ga 和 4b00 也 都 是 变 元 E 所 代表 的 语言 中 的 串 。 第 (vij) 行 利用 产生 式 2 
推出 这 些 表达 式 的 和 也 是 表达 式 ， 第 (viii 行 利用 产生 式 4 推 出 用 括号 括 着 的 同样 的 串 也 是 表达 
式 ， 第 (ix) 行 利用 产生 式 3 把 标识 符 “与 在 第 (vii) 行 中 所 发 现 的 表达 式 相 乘 。 口 


从 头 到 体 使 用 产生 式 来 进行 推导 需要 定义 一 个 新 的 关系 符号 一 。 设 G = (V, T, P, 9) 是 一 个 
CFG，ahP 是 一 个 包含 终结 符 和 变 元 的 串 ， 其 中 4 是 一 个 变 元 ， 也 就 是 说 ，a 和 6 都 是 (VUD' 中 的 
串 ， 而 4 属于 V。 设 A 一 y 是 G 的 一 个 产生 式 ， 那 么 我 们 称 ch4B8 一 ay8 。 如 果 G 是 已 知 的， 那么 就 可 
以 把 它 省 略 掉 ， 而 仅仅 记 做 ahB 一 ayB 。 注 意 ， 在 推导 的 每 一 步 中 都 可 以 替换 串 中 任何 位 置 的 
任何 一 个 变 元 ， 只 要 用 该 变 元 的 任何 一 个 产生 式 的 体 替换 该 变 元 即 可 。 
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可 以 进一步 把 二 关系 推广 到 能 够 表示 零 步 、 一 步 或 者 多 步 推导 ， 就 像 有 穷 自动 机 的 转移 函 
数 5 被 推广 到 一样。 在 推导 中 ， 用 一 个 * 来 表示 “ 零 步 或 多 步 ”， 如 下 : 

基础 : 对 任何 由 终结 符 和 变 元 组 成 的 串 a 都 有 a 过 a， 也 就 是 说 ， 任 何 串 都 能 推导 出 它 自己 ，。 

归纳 : 如 果 a 一 并且 6 二 y， 则 a 过 XY。 也 就 是 说 ， 如 果 a 经 过 零 步 或 多 步 推导 可 以 得 到 p， 


而 经 过 零 步 或 多 步 推导 可 以 得 到 y， 那 么 a 就 可 以 推导 出 y。 另 一 种 解释 ，a 过 B 意 味 着 存在 一 个 
串 的 序列 Xi,%,…,%;，(n 宇 1) 满足 

1 0 

2.0= YY 

3. 对 于 1= 1 27 一 TI， 有 7 一 六 si。 

如 果 文 法 G 是 已 知 的 ， 我 们 可 以 用 == 来 代 赫 二 。 


例 5.5 ”a x (a + 500) 属 于 变 元 有 所 代表 的 语言 的 推理 可 以 用 一 个 从 串 屯 开始 的 对 该 串 的 推导 
来 给 出 ， 下 面 就 是 二 个 这 样 的 推导 : 

EFE—~E*E= I*E=a*E=> 
a*(E)—>a*(E+E)=>a*(I+E)=a*(a+E)= 
a*(a+l)=>a*(a+10)=> a*(a+100)= a*(a+b00) 

在 第 一 步 中 ， 用 产生 式 3 (来 自 图 5-2) 的 体 来 替换 E。 在 第 二 步 中 ， 产 生 式 1 体 中 的 7 被 用 来 
替换 第 一 个 已 ， 依 此 类 推 。 值得 注意 的 是 ， 在 替换 时 系统 地 采用 了 总 是 替换 串 中 最 堪 变 元 的 策略 . 
然而 在 每 一 步 中 ， 其 实 可 以 选择 要 被 替换 的 变 元 ， 也 可 以 使 用 任何 一 个 该 变 元 的 产生 式 的 体 来 
替换 它 。 例 如 ， 在 第 二 步 中 ， 可 以 用 (E) 来 替换 第 二 个 E (使 用 产生 式 4) ， 如 果 这 样 做 的 话 ， 就 
可 以 得 到 Ex*E=> Bx(E) 。 也 可 以 选择 一 个 甚至 永远 不 能 得 到 这 个 终结 符 串 的 替换 .二 个 简单 的 
例子 是 ， 如 果 在 第 一 步 时 使 用 产生 式 2， 那 么 将 会 得 到 巨 一 已 + 巨 ， 而 无 论 对 这 两 个 BE 再 做 任何 
替换 都 无 法 把 E+ E 变 成 ax(a+ 800)。 

可 以 使 用 关系 符号 一 来 简化 推导 过 程 。 由 基础 可 知 E 过 E， 然 后 反复 使 用 归纳 部 分 可 以 得 
到 二 Ex*E，E 二 1*E 等 等 ， 直 到 最 终 的 E 二 a*(a+ b00), 

递归 推理 和 推导 这 两 种 观点 是 等 价 的 。 也 就 是 说 ， 能 够 推理 出 一 个 终结 符 串 w 属 于 其 个 恋 元 
4 的 语言 当 且 仅 当 4 一 内。 然而 ， 想 要 证 明 这 个 事实 还 需要 一 些 其 他 的 工作 ， 将 其 留 到 5.2 节 再 
来 完成 。 口 
5.1.4 最 左 推导 和 最 右 推导 


为 了 限制 推导 一 个 串 时 可 选 推导 的 数目 ， 要 求 在 每 一 步 推导 中 只 将 最 左边 的 变 元 替换 成 访 
变 元 的 某 个 产生 式 的 体 ， 这 种 方式 的 推导 称 为 最 左 推 寻 ， 用 关系 符号 二 和 二 分别 来 表示 一 步 
和 多 步 的 最 左 推导 。 如 果 所 用 的 文法 G 在 推导 中 不 是 很 清楚 ， 那 么 也 可 以 把 它 放 到 这 两 个 符号 中 
箭头 的 下 边 。 

类 似 地 ， 也 可 以 每 次 只 替换 串 中 最 右边 的 变 元 ， 这 样 的 推导 称 为 最 右 推导 ， 使 用 符号 一 


和 之 分 别 来 表示 一 步 和 多 步 的 最 右 推导 。 同 上 ， 如 果 文 法 不 是 很 清楚 的 话 ， 相 应 文法 的 名 字 也 


Oo 
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可 以 写 在 箭头 下 边 。 


CFG 推 导 中 的 表示 
在 讨论 CFG 时 ， 对 不 同 符号 的 表示 方法 有 许多 约定 俗 成 的 惯例 可 以 帮助 读者 记 住 符号 
的 作用 ， 比 如 : 
:字母 表 中 开头 的 几 个 小 写字 母 (如 a,b 等 ) 表示 终结 符号 ,数字 和 其 他 字符 (比如 十 
或 括号 ) 也 总 是 表示 终结 符号 。 
:字母 表 中 开头 的 几 个 大 写字 母 (如 A, B 等 ) 表示 变 元 。 


.字母 表 中 结尾 的 几 个 小 写字 母 (如 w 或 z) 表示 终结 符 串 。 这 种 约定 提示 我 们 : 终结 
符 与 目 动 机 中 的 输入 符号 类 似 。 
4. 字 母 表 中 结尾 的 几 个 大 写字 母 (如 X 或 Y) 可 以 表示 终结 符号 或 者 变 元 。 
5. 小写 的 希腊 字母 (如 c 和 有 ) 表示 由 终结 符号 和 (或 ) 变 元 构成 的 串 。 
其 中 没有 只 由 变 元 构成 的 串 的 特殊 记号 ， 原 因 是 这 种 串 的 意义 不 大 。 然 而 ,命名 为 a 或 其 
他 希腊 字母 的 串 可 以 只 包含 变 元 。 





例 5.6 例 5.5 中 的 推导 实际 上 是 一 个 最 左 推导 。 因 此 ， 我 们 也 可 以 这 样 写 ， 
人 二 + 上 二 1*+ 忆 一 4+ 忆 一 
a*(B)a*(E+E)a*(l+ Ea*(a+t+ 万) 一 
a*(a+ Da*(a+10)a*(a+100)=>a*(a+b00) 
我 们 也 可 以 把 上 面 的 最 左 推导 概括 为 E=>a*(a+b00), 或 者 分 多 步 来 表达 推导 的 过 程 ， 比 如 其 
中 的 某 一 步 为 Ex*E 过 ax*(E)。 
如 琳 采 用 最 右 推导 ， 虽 然 对 串 中 的 每 个 变 元 实际 上 做 了 同样 的 替换 ， 但 替换 的 次 序 不 同 。 
具体 写 出 这 个 最 右 推导 就 是 : 
EE*E>E*(E=>E*(E+E)= 
Eb*(E+DPE*(E+I0)E*(E+100)=E*(E+b00)= 
Ex*(I+b00)>E*(a+b00)=>1*(a+b00)=>a*(a+b00) 


这 个 推导 可 以 概括 为 已 二 ax(a+b00) 。 局 


任何 推导 都 有 等 价 的 最 左 推导 和 最 右 推导 。 也 就 是 说 ， 如 果 w 是 一 个 终结 符 串 ，4 是 一 个 恋 
元 ， 那 么 4 一 w 当 且 仅 当 4 节 w, 而 且 4 过 w 当 且 仅 当 4 一 w， 具 体 的 证 明 将 在 5.2 节 中 给 出 。 


5.1.5 文法 的 语言 


如 采 G = (Y, 了 P, 5) 是 一 个 CFG， 那 么 G 的 语言 ( 记 作 L(G)) 是 指 能 从 初始 符号 推导 出 的 所 
有 终结 符 串 的 集合 。 也 就 是 说 ， 
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LG) = {TT 中 的 w15 过 w} 
如 果 一 个 语言 Z 是 某 个 上 下 文 无 关 文 法 的 语言 ， 那 么 Z 就 称 为 上 下 文 无 关 语 言 或 者 CFL。 例 
如 ， 我 们 断定 图 5-1 中 的 文法 定义 了 字母 表 为 {0, 1} 上 的 回 文 的 语言 ， 因 此 ， 这 些 回 文 的 集合 就 
是 一 个 上 下 文 无 关 语 言 。 这 个 命题 的 具体 证 明 如 下 。 


定理 5.7 L(Gya) 是 字母 表 为 {0, 1} 上 的 回 文 的 集合 ， 其 中 Gya 是 例 5.1 中 的 文法 。 

证 明 我 们 将 要 证 明 一 个 {0, 1》* 中 的 串 w 在 L(Gya) 中 当 且 仅 当 它 是 一 个 回 文 ， 即 w = ws。 

( 当 ) 假定 w 是 一 个 回 文 ， 我 们 通过 对 wl 进行 归纳 来 证 明 w 在 L(Gya) 中 。 

基础 : 长 度 0 和 1 作为 归纳 基础 。 如 果 Iwl = 0 或 lwl = 1， 那 么 w 一 定 是 :0 或 1， 由 于 有 产生 式 
P 一 :，P 一 0 和 P 一 1， 结 论 是 在 上 面 任何 一 种 情况 下 都 有 P 一 w。 

归纳 : 假定 mwI>2。 因 为 w = w*， 所 以 w 的 开头 和 结尾 一 定 是 同一 个 符号 ， 即 w = 0x0 或 w = 
x1， 并 且 x 也 一 定 是 一 个 回 文 ， 即 x = 次 。 注 意 ， 为 了 说 明 w 的 两 端 确实 有 两 个 不 同 的 0 或 1， 需 
要 用 到 Iwl 宇 2 这 一 事实 。 

如 果 w = 0x0, 则 根据 归纳 假设 有 已 = z 继而 可 以 得 到 从 P 到 w 有 一 个 推导 P 过 0P0 过 0x0 =w 。 
如 有 果 w = lx1， 和 情况 类 似 ， 只 是 第 一 步 推 必 所 需 的 产生 式 是 P 一 1P1。 在 这 两 种 情况 下 都 可 以 得 出 
w 在 L(Gpa) 中 ， 证 毕 。 

( 仅 当 ) 现在 假定 w 在 L(Gsw) 中 ， 即 P 一 w ， 必 须 证 明 的 是 w 是 一 个 回 文 。 le 
从 P 到 w 的 推导 过 程 的 步 数 进行 归纳 。 

基础 : 如 果 该 推导 是 一 步 完 成 的 ， 那 么 它 一 定 使 用 了 三 个 在 体 中 不 包含 P 的 产生 式 之 一 ， 即 
该 推导 为 已 =s， 已 =0 或 忆 =1。 因 为 gs，0 和 1 都 是 回 文 ， 因 而 基础 得 证 。 

归纳 : 现在 ,假定 该 推导 共 包 含 + 1 步 ， 其 中 n>1， 并 且 对 于 任何 n 步 完成 的 推导 上 述 命 题 
都 为 真 ， 也 就 是 说 ， 如 果 P 二 x 可 在 n 步 完成 ， 那 么 x 一 定 是 回 文 。 

考虑 一 个 w 的 (n+ D 步 推导 ， 它 一 定 是 如 下 形式 ; 

P 一 0P0 一 0x0=m 
或 者 P 一 1P1 二 1xzl =w ， 原 因 是 ”+ 1 步 其 实 最 少 是 两 步 ， 而 且 能 够 增加 推导 步 数 的 产生 式 只 有 
P 一 0P0 和 P 一 1P1。 注 意 ， 在 这 两 种 情况 中 ，P 一 zx 都 能 在 " 步 完 成 

根据 归纳 假设 可 知 x 是 回 文 ， 即 x = x*。 但 是 ， 如 果 这 样 就 有 0x0 和 1x1 也 都 是 回 文 ， 例 如 ， 

(0x0)* = 0x* 0 = 0x0。 由 此 可 知 w 也 是 回 文 ， 证 毕 。 口 


5.1.6 人 和 句 型 


由 初始 符号 推导 出 来 的 串 有 着 很 特殊 的 作用 ， 称 其 为 “ 句 型 "。 也 就 是 说 ， 如 果 G = (ViT; P， 
5) 是 一 个 CFG， 那 么 任何 在 (VUT)* 中 且 满 足 5 二 a 的 捉 a 都 是 白 型 。 如 果 S 志 & 则 a 是 去 铅 型 ， 


如 采 $ 一 w 则 o 是 右 外 型 。 福 意 ， 语 言 L(G) 是 由 所 有 属于 TT 的 句 型 (也 就 是 由 只 含 终结 符号 的 名 
) 组 成 的 。 


例 5.8 考虑 图 5-2 中 表达 式 的 文法 。 例 如 ,Ex* (+ E) 是 一 个 名 型， 因为 可 以 有 这 样 一 个 
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推导 : 
EE:*E=E*(E)=> Ex*(E+E)= E*(I+E) 


然而 这 个 推导 既 不 是 最 左 的 也 不 是 最 右 的 ， 因 为 在 最 后 一 步 中 被 替换 的 是 中 间 的 E。 
180 举 一 个 左 句 型 的 例子 : 考虑 a * EE， 存在 最 左 推导 : , 
E>E*b>lt b=>arE 


类 似 地 ， 下 面 的 推导 
E>E*E=>E*(E)=>E*(E+E) 


可 以 说 明 E* (E+ 百 是 一 个 右 句 型 。 口 


文法 证 明 的 形式 


定理 5.7 是 一 个 典型 的 例子 ， 它 证 明了 某 个 文法 确实 定义 了 某 个 已 经 非 形 式 化 定义 好 的 
特定 的 语言 。 首 先 要 给 出 一 个 归纳 假设 ， 用 它 来 描述 每 个 变 元 所 推导 出 的 串 都 要 满足 的 性 
质 。 在 这 个 例子 中 只 有 一 个 变 元 P， 因 此 只 要 声明 它 所 代表 的 串 就 是 回 文 串 即 可 。 

从 后 证 明 “充分 性 ”这 部 分 : 如 果 一 个 串 w 满 足 某 个 变 元 4 的 一 个 串 所 应 该 有 的 非 形 式 
化 陈述 的 性 质 ， 那 么 就 应 该 有 .4 一 w。 在 这 个 例子 中 ， 因 为 P 是 初始 符号 ， 因 此 P->w 就 
意味 着 w 在 这 个 文法 的 语言 中 。 通 常 ， 我 们 通过 对 w 的 长 度 进行 归纳 来 证 明 “ 充 分 性 ”这 部 


分 。 如 末 有 k 个 变 元 ， 那 么 可 以 证 明 归纳 陈述 应 该 包含 k 个 部 分 ， 并 且 它 们 之 间 应 该 能 被 证 
明 是 互 归纳 的 关系 。 

接着 要 证 明 “ 必 要 性 ”这 部 分 : 如 果 4 一 w， 那 么 w 应 该 满足 4 所 能 推导 出 的 串 所 应 该 
有 的 非 形式 化 陈述 的 性 质 。 同 样 ， 在 这 个 例子 中 ， 因 为 只 有 初始 符号 P 需 要 处 理 ， 所 以 认 
为 w 在 Gpa 的 语言 里 和 P=>w 是 等 价 的。 这 部 分 的 证 明 通 常 需要 对 推导 的 步 数 进行 归纳 。 如 
朱 该 文法 有 所 推导 出 的 串 中 可 能 包含 两 个 或 更 多 的 变 元 的 产生 式 ， 那 么 就 应 该 把 一 个 n 步 
的 推导 分 成 若干 部 分 ， 每 个 变 元 一 个 推导 。 这 些 推 导 可 能 比 n 步 少 ， 因 此 就 必须 使 用 对 所 
有 小 于 等 于 n 的 情况 都 包含 的 归纳 假设 ， 就 像 1.4.2 节 中 所 讨论 的 那样 。 





5.1.7 习题 


习题 5.1.1 设计 下 列 语言 的 上 下 文 无 关 文 法 : 
* a) 集合 {0"1"172>1}， 即 所 有 一 个 或 多 个 0 后 面 跟着 相同 数目 的 1 的 串 的 集合 。 
“1b) 集合 {abice 1i 去 j 或 7 关 谷 ， 即 所 有 满足 以 下 性 质 的 串 的 集合 : 若干 个 4 后面 跟着 若干 个 
5， 后 面 绸 跟着 若干 个 c， 并 且 或 者 和 2 的 数目 不 同 ， 或 者 5 和 c 的 数目 不 同 ， 或 者 两 者 都 
不 同 。 
! c) 所 有 不 是 ww 形式 的 由 za 和 2 构成 的 串 的 集合 ， 即 不 是 把 某 个 串 重 复 一 遍 的 串 。 
'!d) 所 有 0 的 个 数 是 1 的 个 数 两 倍 的 串 的 集合 。 
习题 5.1.2 下 面 的 文法 产生 了 正则 表达 式 %10 + D)* 的 语言 : 


蒜 下 党 无 天 羡 尖 及 上 下 文 无 天 大 了 
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试 给 出 下 列 串 的 最 左 推导 和 最 右 推 导 : 

* a) 00101 。 

b) 1001 。 

c) 00011 。 

! 习题 5.1.3 


符 的 数目 进行 归纳 的 方法 来 构造 CFG。 


证 明 : 任何 正则 语言 都 是 上 下 文 无 关 语言 。 提 示 : 通过 对 正则 表达 式 中 的 运算 
! 习题 5.1.4 “如 采 一 个 CFG 的 每 个 产生 式 的 体 都 最 多 只 有 一 个 变 元 ， 并 且 该 变 元 总 在 最 右 端 ， 
那么 称 CFG 为 右 线性 的 。 也 就 是 说 ， 右 线性 文法 的 所 有 产生 式 都 是 4 一 wB 或 4 一 % 的 形式 ， 其 中 4 
和 8 是 变 元 ，Y 古 由 零 个 或 多 个 终结 符 组 成 的 串 。 

3 证 明 : 任何 右 线性 文法 所 产生 的 语言 都 是 正则 语言 


叶 ， 并 用 它 的 状态 来 表示 当前 左 句 型 中 的 单个 变 元 


提示 : 构造 一 个 e-NFA 来 模拟 最 左 推 
b) 证 明 任何 正则 语言 都 有 右 线性 文法 。 提 示 : 用 一 个 DFA， 并 且 用 文法 的 变 元 来 表示 状 
#! 习题 5.1.5 设 T= {0, 1,(,),+, *, $e}， 可 以 把 7 看 作 字母 表 为 {0, 1} 的 正则 表达 式 所 使 用 的 符 
号 的 集合 ， 惟 一 的 不 同 是 用 e 来 表示 符号 s， 目 的 是 为 了 避免 有 可 能 出 现 的 混淆 。 你 的 任务 是 以 7 
为 终结 符号 集合 来 设计 一 个 CFG， 该 CFG 生 成 的 语言 恰好 是 字母 表 为 {0, 1} 的 正则 表达 式 。 
习题 5.1.6， 定义 关系 符号 一 ， 其 中 基础 为 “a 一 a”， 归 纳 为 “如 果 有 a 二 Bp 和 ==7， 
则 有 c 一 y”。 还 有 很 多 定义 二 的 方法 与 定义 “ 守 是 一 步 或 多 步 的 十 ”的 效果 是 一 样 的 。 
证 明 下 列 命题 都 是 正确 的 : 


a) w 一 B 当 且 仅 当 有 一 个 包含 一 个 或 多 个 串 的 序列 ; 


is Y,， Wee 


ws 
使 得 a = i， 及 二 加， 并 且 对 于 i = 1,2,…,n 一 1 都 有 ks 
行 归 纳 。 


b) 如 果 有 a 二 Bb 和 二 y ， 那 么 就 有 a 二 y 。 提 示 : 使 用 归纳 法 ， 对 推导 8 二 y 中 的 步 数 进 
! 习题 5.1.7 考虑 下 面 产生 式 定义 的 CFG G: 
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a) 通过 对 串 的 长 度 进行 归纳 ， 证 明 任 何 ZO) 中 的 串 都 没有 be 这 个 子 串 。 
b) 韭 形式 化 地 描述 CC) ， 用 (a) 来 证 明 答案 。 
!! 习题 5.1.8 考虑 下 面 的 产生 式 定 义 的 CFG G: 


证 明 忆 G) 是 有 相同 个 数 的 c 和 2 的 所 有 串 的 集合 。 


S—aSbS|lbSaSsle 
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5.2 语法 分 析 树 


推导 有 一 种 非常 有 用 的 树 型 表示 一 语法 分 析 树 ， 这 种 树 能 够 清楚 地 告诉 我 们 终结 符 串 中 的 
符号 是 怎样 组 成 子 串 的 ， 这 些 子 串 属于 文法 中 某 个 变 元 的 语言 。 更 重要 的 是 ， 在 编译 器 设计 中 
语法 分 析 树 是 一 种 可 以 用 来 表示 源 程 序 的 重要 的 数据 结构 。 在 编译 器 中 ， 把 源 程序 表示 成 树 结 
构 能 够 有 助 于 用 自然 的 递归 函数 来 完成 把 源 程序 翻译 成 可 执行 代码 的 工作 。 

在 本 节 中 ， 首 先 介绍 语法 分 析 树 ， 并 阐述 它 与 推导 以 及 递归 推理 的 存在 性 之 间 的 紧密 联系 。 
然后 研究 文法 和 语言 的 歧义 性 的 本 质 ， 这 也 是 语法 分 析 树 的 一 种 重要 应 用 。 有 些 文法 允许 一 个 
终结 符 串 拥有 多 棵 语法 分 析 树 ， 这 种 情况 使 得 这 种 文法 不 适合 用 来 表达 程序 设计 语言 ， 因 为 它 
使 得 编译 器 无 法 判断 一 些 源 程序 的 结构 ， 因 而 无 法 给 该 程序 确定 合适 的 可 执行 代码 。 


回顾 关于 树 的 术语 


这 里 假设 读者 已 经 了 解 了 树 的 概念 ， 并 且 熟 悉 常 用 的 关于 树 的 定义 。 然 而 ， 下 面 我 们 
还 是 一 起 回顾 一 下 : 

“ 树 是 一 些 有 特定 父子 关系 的 节点 (或 顶点 ) 的 集合 。 每 个 节点 至 多 有 一 个 父 节点 ， 

该 父 市 点 画 在 该 节点 上 面 ， 还 有 零 个 或 多 个 子 节点 画 在 该 节点 下 面 ， 并 且 父 子 节点 

之 则 用 线段 连接 。 图 5-4、 图 5-5 和 图 5-6 都 是 树 的 例子 。 


* 有 且 仅 有 一 个 根 节点 ， 根 节点 没有 父 节 点 ， 出 现在 树 的 最 顶端 。 没 有 子 节点 的 节点 
称 为 叶 节 点 ， 不 是 叶 节 点 的 节点 叫做 内 部 节点 或 内 节点 。 

“一 个 节点 的 子 节 点 的 子 节 点 的 …… 叫 作 该 节点 的 后 代 ， 一 个 节点 的 父 节点 的 父 节 上 
的 全 人 叫 作 该 节点 的 祖先 。 一 般 来 说 ， 一 个 节点 同时 也 是 其 自身 的 祖先 和 后 代 。 
“一 个 节点 的 子 节 点 按照 从 左 到 右 的 顺序 排列 和 画 出 。 如 果 一 个 节点 N 在 另 一 个 节点 M 
的 左边 ， 那 么 所 有 NN 的 后 代 都 被 排 在 所 有 M 的 后 代 的 左边 。 





5.2.1 构造 语法 分 析 树 
对 于 文法 G = (V,7,P, 5) 来 说 ，G 的 语法 分 析 树 是 满足 下 列 条 件 的 树 : 
1. 每 个 内 部 节点 的 标号 是 Y 中 的 一 个 变 元 。 
2. 每 个 时节 点 的 标号 可 以 是 一 个 变 元 、 一 个 终结 符 或 者 es。 但 是 ， 如 果 叶 节点 的 标号 是 e， 


183 那么 它 一 定 是 其 父 节 点 惟一 的 子 节点 。 
3. 如 采 某 个 内 部 节点 的 标号 是 4， 并 且 它 的 子 节点 的 标号 从 左 到 右 分 别 为 : 
» Go 


那么 4 一 XIX2… 角 一 定 是 P 中 的 一 个 产生 式 。 注 意 ; 如 果 其 中 某 个 X 为 那么 基 一 定 是 4 惟一 
的 子 节点 ， 并 且 A4 一 e 是 G 的 一 个 产生 式 。 


例 5.9 ”图 5-4 给 出 了 一 棵 语法 分 析 树 ， 它 所 使 用 的 文法 是 图 5-2 中 的 表达 式 文法 。 它 的 根 节 
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点 的 标号 是 变 元 E。 因 为 根 节点 的 三 个 子 节 点 的 标号 从 左 到 右 分 别 为 E，+ 和 E， 因 此 在 根 市 挟 处 
使 用 的 产生 式 是 E 一 E+ EE。 在 根 节点 最 左边 的 子 节点 处 ， 因 为 该 节点 只 有 一 个 标号 为 1 的 子 习 扩 ， 
所 以 它 使 用 的 产生 式 是 E 一 1。 口 


例 5.10 ”图 5-5 给 出 的 是 图 5-1 中 回 文 文法 的 一 棵 分 析 树 。 根 市 点 处 使 用 的 产生 式 是 P 一 
0P0, 根 市 点 的 中 间 子 市 点 处 使 用 的 产生 式 是 P 一 1P1。 注意 最 下 面 的 节点 使 用 的 产生 式 是 P 一 s， 
并 且 该 市 态 只 有 一 个 标号 为 的 子 市 点 ， 这 也 是 能 在 语法 分 析 树 中 使 用 标号 为 的 节点 的 惟一 


情况 。 口 

P 

a 

E 0 到 0 

五 十 E 1 P 1 
| | 
1 £ 

图 5-4 表示 从 E 推 导出 1+ E 的 语法 分 析 树 图 5-5 表示 推导 P=>0110 的 语法 分 析 树 


5.2.2 语法 分 析 树 的 产生 


如 果 看 到 任意 一 棵 语法 分 析 树 的 所 有 时 子 的 标号 ， 并 按照 从 左 到 右 的 顺序 将 其 连接 起 来 ， 
就 可 以 得 到 一 个 串 ， 这 个 串 称 作 该 树 的 产物 ， 其 实 它 总 是 根 节 
点 处 的 变 元 所 能 推导 出 来 的 串 ， 这 一 点 后 面 会 给 出 证 明 。 特别 | 
重要 的 是 有 一 些 满足 以 下 条 件 的 语法 分 析 树 : i 

1. 它 的 产物 是 终结 符 串 ， 即 所 有 叶 节 点 的 标号 都 是 终结 符 ”| -一 | 人 

或 者 s。 7 E ) 

2. 根 节点 的 标号 是 初始 符号 。 人 
这 些 语法 分 析 树 的 产物 都 是 相应 文法 的 语言 中 的 串 。 稍 后 会 证 a E + E 
明 描述 一 个 文法 的 语言 的 另 一 种 方法 恰好 是 所 有 以 初始 符号 为 | ] 


根 、 产 物 是 终结 符号 串 的 语法 分 析 树 的 产物 的 集合 。 1 I 
例 5.11 ”图 5-6 正 是 一 个 初始 符号 为 根 、 产 物 是 一 个 终结 符 | A Ys 

串 的 树 的 例子 。 它 所 基于 的 文法 是 图 $-2 中 介绍 的 表达 式 的 文法 。 Wn 

这 棵 树 的 产物 是 在 例 5.5 中 推导 出 来 的 串 a * (a + 500)。 实 际 上 正 ar 


如 将 会 看 到 的 ， 这 棵 语法 分 析 树 恰好 就 是 那个 推导 的 一 种 表 | 


小。 口 p 


5.2.3 推理 .推导 和 语法 分 析 树 tho et 


迄今 为 止 我 们 介绍 了 几 种 描述 一 个 文法 怎样 工作 的 概念 ， 实 质 上 它们 都 描述 了 串 的 同样 的 
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性 质 。 也 就 是 说 ， 给 定 一 个 文法 G = (V, 7, P, 5)， 应 该 能 够 证 明 下 面 几 点 是 等 价 的 : 


CN 


1. 递归 推理 过 程 确 定 终结 符 串 w 在 变 元 4 的 语言 
po A 


人 Wo 
im 


扩 : 纹 起 

5. 存 在 根 结 节 为 4、 产 物 为 w 的 语法 分 析 树 。 
事实 上 ，Y 为 包含 变 元 的 串 ， 除 了 递归 推理 的 使 用 被 定义 为 仅 限 于 终结 符 串 以 外 ， 所 有 其 他 的 条 
件 (存在 推导 、 最 左 推导 或 最 右 推导 以 及 分 析 树 ) 都 是 等 价 的 。 

这 些 等 价 性 需要 证 明 ， 我 们 打算 用 图 5-7 中 的 顺序 来 证 明 它们 。 也 就 是 说 ， 图 5-7 中 的 每 条 入 
弧 表示 要 证 明 的 一 个 定理 ， 如果 w 满 足 箭 弧 尾部 的 条 件 ， 那 么 它 就 满足 箭 弧 头 部 的 条 件 。 比 如 ， 
在 定理 5.12 中 将 证 明 : 如 果 通 过 递归 推理 能 得 出 w 在 4 的 语言 中 ， 则 一 定 存在 一 棵 根 为 4、 产 物 为 
w 的 语法 分 析 树 。 


最 左 推导 “”-A 语法 分 析 树 


> 


pe 递归 推理 


ane ent 


图 5-7 证 明 关 于 文法 的 一 些 命题 的 等 价 性 


注意 ， 其 中 有 两 条 箭 绝 比较 简单 ， 因 此 就 不 作 形式 化 的 证 明了 。 如 果 w 有 一 个 从 4 开始 的 
节 堪 推导 ， 那 么 它 肯定 有 一 个 从 4 开始 的 推导 ， 因 为 最 左 推 导 本 身 同 时 也 是 推导 ， 类 似 地 ， 如 
琳 w 有 一 个 最 右 推导 ， 那 么 它 显然 也 有 一 个 推导 。 下 面 会 依次 证 明 这 些 等 价 性 中 剩 下 的 比较 难 
的 部 分 。 


5.2.4 从 推理 到 树 


定理 5.12 设 G = (V, 也 P, 9 是 一 个 CFG。 如 果 通 过 递归 推理 过 程 得 出 终结 符 串 w 在 变 元 4 的 
语言 中 ， 则 一 定 存在 一 棵 根 为 4、 产 物 为 w 的 语法 分 析 树 。 

证 明 对 推理 的 步 数 进行 归纳 。 

基础 : 若 该 推理 只 有 一 步 ， 则 该 推理 过 程 只 需 使 用 基础 ， 因 此 一 定 存在 产生 式 4 一 w。 图 5-8 中 
的 树 满 足 成 为 文法 G 的 语法 分 析 树 的 条 件 ， 其 中 w 的 每 个 位 置 有 一 个 叶子 。 显 然 ， 它 的 根 是 4， 产 物 
是 w。 考 虑 特例 w = ze， 那么 这 棵 树 只 有 一 个 标号 为 e 的 叶子 ， 此 时 同样 满足 根 是 A 目 产 物 是 w 的 条 件 。 

归纳 : 假定 在 ”+ 1 个 推理 步 又 之 后 能 够 得 出 w 在 4 的 语言 里 这 个 事实 ， 并 且 这 个 定理 对 于 使 
得 有 3 的 语言 中 的 x 成 员 用 小 于 等 于 " 步 推理 推 得 的 所 有 串 x 和 变 元 了 成 立 ; 考虑 得 出 w 在 4 的 语言 里 
这 个 推理 的 最 后 一 步 ， 这 一 步 使 用 了 A 的 某 个 产生 式 ， 不 妨 设 为 4 一 XX。…X%， 其 中 XX, 或 者 是 一 
个 终结 符 或 者 是 一 个 变 元 。 


半 下 汪 无 类 无 沽 及 上 于 斑 匹 关 王 二 2 


我 们 把 w 打 断 为 wiw2…wx， 其 中 : 
1. 如 果 %% 是 一 个 终结 符 ， 则 wi=X， 即 wi 只 由 产生 式 中 的 这 个 终结 符 组 成 。 
2. 如 果 X; 是 一 个 变 元 ， 则 wi 是 一 个 先前 推理 出 在 X; 的 语言 中 的 A 
串 。 也 就 是 说 ， 得 出 w 属 于 4 的 语言 的 x + 1 步 推理 中 ， 关 于 w 
的 推理 至 多 占用 了 其 中 的 n 步 。 之 所 以 它 不 能 占用 全 部 的 + 。 二 和 
1 步 ， 是 因为 最 起 码 在 最 后 一 步 使 用 的 产生 式 是 A 一 Xi%…X， 
而 它 肯 定 不 是 关于 wi 的 推理 中 的 一 部 分 。 因 此 ， 我 们 可 以 对 ” 图 5-8 定理 5.12 的 证 明 中 基 
wi 和 Xi 应 用 归纳 假设 ， 从 而 得 出 结论 :存在 一 个 根 为 X、 产 。 。 型 情况 下 所 构造 的 树 
物 为 w 的 语法 分 析 树 。 
接 下 来 我 们 构造 一 棵 根 为 4 并 且 产 物 为 w 的 树 ， 如 图 5-9 所 示 。 根 节点 的 标号 为 4， 它 的 子 节 
点 分 别 为 Xi, 和 %,…, 孔 。 因 为 4 一 乱世 … 肥 是 G 的 一 个 产生 式 ， 所 以 这 种 选择 是 有 效 的 
每 个 节点 总 实际 上 是 一 个 产物 为 w 的 子 树 的 根 节点 。 


在 情况 (1) 中 是 终结 符 ， 这 棵 子 树 就 变 成 了 -- 棵 只 有 一 


个 标号 为 Xi; 的 布点 的 平凡 树 。 也 就 是 说 ， 这 棵 子 树 仅 由 








w 


ee NS 2 
该 根 市 点 这 一 个 节点 构成 。 因 为 wi;= X:， 所 以 在 情况 (1) 
中 该 子 树 的 产物 为 ww 的 条 件 也 是 满足 的 。 人 人 A \ 
在 情况 (2) 中 ,XX 是 一 个 变 元 。 继 续 使 用 归纳 假设 可 w1 "2 和 Ck 
以 得 出 一 棵 根 为 X;、 产 物 为 wi 的 树 ， 且 这 棵 树 被 接 到 节 图 5-9 定理 5.12 的 证 明 中 归纳 部 分 
点 各 上 ( 见 图 5-9)。 所 使 用 的 拉 
至 此 ， 这 棵 树 已 经 构造 好 了 ， 它 的 根 节 点 为 4， 把 根 节点 所 有 子 树 的 产物 从 左 到 右 连 接 起 来 
就 得 到 整 棵 树 的 产物 ， 正 好 是 wiw2…wi， 也 就 是 w。 口 


5.2.5 从 树 到 推导 


现在 我 们 展示 怎样 从 一 棵 语法 分 析 树 构造 一 个 最 左 推 导 。 构 造 最 右 推 导 的 方法 与 此 相同 ， 
因此 我 们 就 不 再 证 明 从 语法 分 析 树 构造 最 右 推导 的 情况 。 为 了 理解 推导 的 构造 过 程 ， 首 先 来 看 
看 从 一 个 变 元 到 一 个 串 的 某 个 推导 怎样 能 够 被 艇 入 另 一 推导 中 。 有 一 个 例子 可 说 明 这 一 点 。 
例 5.13 再 一 次 考虑 图 5-2 中 的 表达 式 文法 。 很 容易 验证 存在 下 面 的 推导 : 
E=>1= Ib=ab 
推 而 三 之 ， 对 任意 的 串 a 和 B， 下 面 的 推导 也 都 成 立 : 
aEB = alb = albp = aabpB 


理由 十 这 种 用 产生 式 的 体 来 替换 头 的 方法 既 可 用 在 单独 的 变 元 上 ， 也 可 用 在 任意 的 上 下 文 afnB 
中 
例如 ， 如 果 有 一 个 推导 ， 其 开头 两 步 是 丐 一 下 + 无 一 下 +(B) ， 那 么 就 可 以 通过 把 “已 + (” 
日 事实 上 ， 术 语 “ 上 下 文 无 关 ” 正 是 由 于 这 种 无 需 考 虑 上 下 文 就 能 进行 的 串 对 变 元 的 奉 换 的 性 质 才 得 来 的 。 另 


外 还 有 一 类 更 强 的 文法 ， 称 为 “上 下 文 相关 ”， 这 种 文法 中 的 替换 只 有 当 一 定 的 串 出 现在 被 替换 的 串 的 左边 和 
(或 ) 右边 时 才能 进行 。 当 前 ， 上 下 文 相关 文法 在 实际 应 用 中 并 不 占 主要 地 位 。 


人 


看 作 c， 把 “)” 看 作 B， 对 中 间 的 BE 放 用 上 面 关 于 ap 的 推导 ， 因 而 可 以 得 到 
E+(E)= E+(DN) = E+(1b)=> E+(ab) 回 


现在 就 可 以 着 手 证 明 能 够 把 语法 分 析 树 转换 成 最 左 推导 的 定理 了 。 这 个 证 明 是 通过 对 树 的 
高 度 进行 归纳 来 完成 的 ， 其 中 树 的 高 度 是 指 从 根 市 点 顺 着 父子 关系 到 叶 布 点 的 最 长 的 路 程 。 例 
如 ， 图 5-6 中 树 的 高 度 是 7， 最 长 的 根 到 叶子 的 路 径 是 到 标号 为 b 的 叶子 的 路 径 。 注 意 ， 习 惯 上 路 
径 长 度 计算 的 是 该 路 径 上 的 边 数 ， 而 不 是 顶点 数 ， 因 此 一 个 单个 节点 的 路 径 的 长 度 为 0。 


定理 5.14 设 G = (V, 7, P, 3) 是 一 个 CFG， 假 设 有 一 棵 语法 分 析 树 ， 它 的 根 的 标号 为 变 元 4、 
产物 为 w， 其 中 w 属 于 大 。 那 么 一 定 存在 一 个 文法 G 中 的 最 左 推导 4 一 w。 
证 明 对 树 的 高 度 进行 归纳 。 
基础 : 归纳 基础 是 高 度 1，1 是 产物 为 终结 符 的 语法 分 析 树 高 的 最 小 值 。 在 这 种 情况 下 ， 这 
棵 树 一 定 和 图 5-8 中 的 树 类 似 ， 根 市 点 的 标号 为 4， 而 且 它 的 子 节 点 从 左 到 右 连 起 来 为 v。 由 于 这 
棵 树 古 一 棵 语法 分 析 树 ， 因 此 A 一 w 一 定 是 一 个 产生 式 。 因 此 ，4 二 w 是 从 A 到 w 的 单 步 完 成 的 最 
左 推导 。 
归纳 : 如 果树 的 高 度 是 x， 其 中 n > 1， 它 一 定 和 图 5-9 中 的 树 类 似 。 也 就 是 说 ， 根 节点 的 标 
写 为 4， 它 的 子 市 点 的 标号 从 左 到 右 分 别 为 X1;X2,…;Xe， 其 中 这 些 X 可 以 是 变 元 或 者 终结 符 。 
1 如 果 Xi; 是 终结 符 ， 定 义 wi 为 只 包含 夭 的 串 。 
2. 如 采 Xi 是 变 元 ， 那 么 它 一 定 是 某 个 产物 为 终结 符 wi 的 子 树 的 根 节 点 。 注 意 ， 在 这 种 情况 
下 ， 这 棵 子 树 的 高 度 一 定 小 于 n， 因 此 可 以 对 它 使 用 归纳 假设 。 也 就 是 ， 存 在 一 个 最 左 推 
导 X —w, 。 
注意 ，w = wiw2*…wk。 
下 面 构造 一 个 w 的 最 左 推 导 。 首 先 从 4 一 六 X,…X 开始 ， 接 着 对 于 每 个 i = 1,2,…,k， 依 次 
证 明 
A=> ww, .WX Xa 
这 部 分 证 明 实际 上 是 另外 一 个 归纳 法 ， 不 过 这 次 是 对 i 进行 归纳 。 对 于 归纳 基础 i = 0， 已 知 
的 4 一 总 六 …X 。 对 于 归纳 部 分 ; 假定 


-XX 


A> ww,.… wi XX, …X， 


a) 如 采 Xi 是 终结 符 那 就 什么 都 不 做 。 然 而 ， 下 一 步 中 把 X; 看 作 终 结 符 串 w;。 从 而 可 以 得 到 


A 过 > wiw, re es, jd 


b) 如 采 Xi 是 变 元 ， 那 么 继续 从 Xi 到 w; 的 推导 ， 不 过 这 次 使 用 已 经 构造 好 的 推导 的 上 下 文 。 
也 就 是 说 ， 如 果 这 个 推导 为 


Xi; 一 0 一 0 一， 
”mr 


我 们 就 继续 下 面 的 推导 : 


取 下 沫 无 关 闵 汪 及 上 下 文 无 闪 语 于 129 


这 个 结果 就 是 需要 的 推导 4 之 几 岂 ww 
当 i = 介 ， 这 个 结果 就 是 从 4 到 w 的 最 左 推导 。 . 


例 5.15 ”构造 图 5-6 中 的 语法 分 析 树 的 最 左 推导 。 我 们 只 展示 最 后 一 步 : 在 已 经 把 根 市 点 的 
所 有 子 树 所 对 应 的 推导 都 构造 好 了 的 前 提 下 ， 剩 下 要 做 的 工作 只 是 给 出 整 棵 树 所 对 应 的 推导 。 
也 就 是 说 ， 假 设 通过 递归 地 使 用 定理 5.14 中 的 技术 ， 已 经 得 到 了 以 根 节 点 的 第 一 个 子 节 点 为 根 
的 子 树 对 应 的 最 左 推导 之 7 一 4 ， 同 时 得 到 了 以 根 市 点 的 第 三 个 子 市 点 为 根 的 子 树 对 应 的 最 
左 推导 
E>(E)=(E 十 = + £)=(a + E)= 
(a+ D)=(a 二 0) 一 (4 十 100)=>(a + b00) 


为 了 构造 整 棵 树 的 最 左 推导 ， 首 先 在 根 处 使 用 上 过 EE*E£ ， 然 后 用 它 的 推导 代替 第 一 个 E， 
并 且 在 每 步 中 都 用 *E 作 为 下 文 来 说 明 使 用 这 个 推导 的 较 大 的 上 下 文 。 这 样 得 到 的 最 左 推导 为 
E=—~E*E= I*E=>a*E 


在 根 处 使 用 的 产生 式 中 的 * 不 用 推导 ， 所 以 上 面 的 最 左 推导 也 说 明 根 节点 的 前 两 个 子 节点 。 
为 了 完成 整个 最 左 推导 ， 接 着 使 用 推导 已 =(&+ 800)， 并 且 在 每 步 中 都 把 ax 加 在 前 面 ;后 面 再 
加 上 一 个 空 串 。 这 个 推导 实际 上 在 例 5.6 中 已 经 出 现 过 了 ， 就 是 : 
b>Lb*E=>I*E=>arE= 
a*(E)>a*(E+E)a*(l+ E>a*(a+tE)= 


a*(a+ Da*(a+10)=>a*(a+100)=>a*(a+b00) 太 


类 似 地 ， 有 一 个 定理 可 以 保证 把 语法 分 析 树 转化 为 最 右 推导 。 从 树 构 造 最 右 推 导 的 过 程 和 
最 左 推 寻 的 构造 过 程 几乎 完全 相同 。 只 是 ， 在 第 一 步 4 志 XX,…X 开始 后 ， 先 使 用 最 右 推导 扩 
展 和 ， 然 后 扩展 Xe ， 依 此 类 推 ， 最 后 才 是 Xi。 因 此 ， 此 处 不 给 出 进一步 的 证 明 。 


定理 5.16 设 G =(V,7,P,5) 是 一 个 CFG， 假 设 有 一 棵 语法 分 析 树 ， 其 根 的 标号 为 变 元 4、 产 
物 为 x， 其 中 w 属 于 7T*。 那 么 一 定 存在 一 个 文法 G 中 的 最 右 推导 4 一 w。 口 


5.2.6 从 推导 到 递归 推理 


现在 距离 完成 图 5-7 中 的 整个 环 路 只 差 这 一 点 了 : 如 果 对 某 个 CEG 有 一 个 推导 4 一 w ， 那 么 
一 定 可 以 在 递归 推理 过 程 中 发 现 w 在 4 的 语言 中 这 一 事实 。 在 给 出 相应 的 定理 及 其 证 明之 前 ， 首 
先 看 看 推导 的 一 些 重 要 性 质 。 
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假设 有 一 个 推导 A 二 XX,.…X Sw, 那么 一 定 可 以 把 w 打 断 成 w = wiw2…wi 使 得 X=>w, o 
注意 ， 如 果 X 是 终结 符 ， 那 么 wi;= XX， 并 且 该 推导 只 有 零 步 。 这 个 事实 的 证 明 并 不 难 ， 只 要 对 推 
导 的 步 数 进行 归纳 即 可 证 明 : 如 果 因 X…X, 过 a ， 那 么 对 于 任意 的 i < j，a 中 所 有 由 名 扩展 来 的 
位 置 一 定 在 所 有 由 为 扩展 来 的 位 置 的 左边 。 

如 果 X 是 一 个 变 元 ， 则 可 以 通过 如 下 方法 获得 推导 义 二 w，: 首先 从 推导 4 过 w 开始 ， 然 后 
去 掉 以 下 内 容 : 

a) 所 有 在 句 型 中 由 XX 推导 出 的 位 置 的 左边 和 右边 的 位 置 ， 以 及 

b) 所 有 与 从 XX 推导 出 wi 无 关 的 步 难 。 

为 了 看 清 这 个 过 程 ， 下 面 是 一 个 例子 。 


例 5.17 对 于 图 5-2 中 的 表达 式 文 法 ， 考 虑 如 下 推导 : 
E>E*x*E=—~ Ex*E+E=I*xE+E=I*I+E = 
Ix*I+1—a*I+I=>ax*b+I=a*b+i+a 


考虑 其 中 第 三 个 句 型 E * E+ E 和 该 句 型 中 间 的 E。9 

从 E * 五 + EE 开始， 按照 上 面 推 导 中 的 步骤 ,但 是 要 去 掉 所 有 由 中 间 的 E 左 边 的 Ex* 和 右边 的 
+E 所 推导 出 来 的 位 置 。 那 么 上 面 推 导 中 的 步骤 就 变 成 了 E, E, 7, 7, 1, b,b。 也 就 是 说 ， 下 一 步 中 并 
没有 改变 中 间 的 E， 在 接 下 来 的 一 步 中 把 它 变 成 了 1， 然后 的 两 步 中 保持 为 [不 变 ， 接 着 把 它 变 成 
b， 并 且 在 最 后 一 步 中 保持 不 变 。 

如 末 只 考虑 从 中 间 那 个 E 的 推导 中 变化 的 部 分 ， 那 么 序列 E, E, 7, 7, 1, b, b 就 变 成 了 推 
导 正 一 7 一 。 这 个 推导 准确 地 刻画 了 中 间 的 BE 在 整个 推导 过 程 中 的 变化 情况 。 


定理 5.18 设 G = (Y, 7, P, 9 是 一 个 CEG， 假 设 有 一 个 推导 4 之 w ， 其 中 w 属 于 7。 那么 应 用 
于 G 的 递归 推理 过 程 决定 了 w 在 变 元 4 的 语言 
证 明 对 推导 4 一 w 的 长 度 进行 归纳 。 
基础 : 如 果 该 推导 只 有 一 步 ， 那 么 4 一 w 一 定 是 一 个 产生 式 。 由 于 w 只 包含 终结 符 ， 因 此 由 
递归 推理 过 程 的 基础 部 分 就 可 以 得 出 w 在 4 的 语言 中 的 事实 。 
归纳 : 假设 该 推导 包含 n + 1 步 ， 并 且 假 定 对 于 所 有 少 于 或 等 于 n 步 的 推导 来 说 命题 都 成 立 ， 
把 推导 写 为 4 一 马 闷 … 素 一 w。 然后， 根据 该 定理 之 前 的 讨论 ， 我 们 可 以 把 w 打 断 为 w = wiw2… 
YA 其 中 : 
a) 如 果 X; 是 终结 符 ， 则 wi; = Xi。 
b) 如 果 X 是 变 元 ， 那么 有 X, 二 w,。 因 为 推导 4 一 w 的 第 一 步 肯 定 不 是 推导 和 之 w 中 的 一 
部 分 ， 因 此 可 知 这 个 推导 只 有 少 于 等 于 n 步 。 因 此 ， 对 它 使 用 归纳 假设 可 以 推理 出 w; 在 总 
的 语言 中 。 
现在 已 经 有 了 产生 式 A 一 XX2…X%， 其 中 wi 或 者 等 于 Xi; 或 者 可 知 在 X; 的 语言 中 。 在 下 一 轮 的 


递归 推理 过 程 中 ， 就 可 以 知道 ww2…w 在 A 的 语言 中 。 因 为 wiw2…wi = w， 因 此 可 以 推理 出 w 在 4 


日 ”在 从 大 的 推导 过 程 中 找 出 一 些 子 推导 过 程 的 讨论 中 ， 假 定 我 们 所 关心 的 是 一 些 推导 的 第 二 个 句 型 中 的 变 元 
然而 ， 这 种 思想 对 于 一 个 推导 中 的 任何 一 步 中 的 变 元 都 是 成 立 的 。 
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的 语言 中 。 出 
5.2.7 习题 


习题 5.2.1 对 于 习题 5.1.2 中 的 文法 和 每 个 串 ， 给 出 相应 的 语法 分 析 树 。 
! 习题 5.2.2 假设 G 是 一 个 CFG， 并 且 它 的 任何 一 个 产生 式 的 右边 都 不 是 e。 如 果 w 在 L(G) 中 ，w 
的 长 度 是 nx，w 有 一 个 m 步 完成 的 推导 ， 证 明 w 有 一 个 包含 n+ m 个 节点 的 分 析 树 。 
! 习题 5.2.3 “假设 在 习题 5.22 中 除了 G 中 可 能 有 右 端 为 的 产生 式 外 其 他 所 有 的 条 件 都 满足 ， 证 
明 此 时 w (w 不 是 e) 的 语法 分 析 树 有 可 能 包含 na + 2m 一 1 个 节点 ， 但 不 可 能 更 多 。 
! 习题 5.2.4 ”在 5.2.6 节 中 提 到 了 : 如 果 和 和.…X 二 a ， 那 么 对 于 任意 的 i < j，a 中 所 有 由 总 扩 
展 来 的 位 置 一 定 在 所 有 由 为 扩展 来 的 位 置 的 左边 。 试 证 明 这 一 点 。 提 示 : 对 推导 的 步 数 进行 归纳 。 


5.3 上 下 文 无 关 文 法 的 应 用 


上 下 文 无 关 文 法 最 初 是 由 乔 姆 斯 基 (N.Chomsky) 构想 出 来 用 于 描述 自然 语言 的 ， 这 个 愿 
望 还 没有 被 实现 。 然 而 ， 由 于 计算 机 科学 中 递归 定义 的 概念 被 频繁 地 使 用 ， 所 以 把 CFG 作 为 描 
述 这 些 概念 实例 的 方法 也 很 有 必要 。 下 面 将 粗略 地 给 出 众多 应 用 中 的 两 个 ， 一 个 较 老 的 应 用 和 
一 个 比较 新 的 应 用 。 

1. 用 文法 来 描述 编程 语言 。 比 这 更 重要 的 在 于 ， 存 在 着 机 械 化 的 方式 把 用 CFG 描 述 的 语言 
变 为 语法 分 析 器 ， 语 法 分 析 器 是 编译 器 的 一 部 分 ， 它 用 来 发 现 源 程 序 中 的 结构 并 且 把 该 
结构 表示 成 为 语法 分 析 树 。 这 是 最 早 的 CFG 的 应 用 之 一 ， 事 实 上 它 也 是 最 早 把 计算 机 科 
学 中 的 理论 付 诸 于 实践 的 方法 之 一 。 
.人 们 普遍 认为 XML 能 够 促进 电子 商务 的 发 展 ， XML 能 够 帮助 参与 电子 商务 的 双方 在 定单 、 
产品 描述 以 及 许多 其 他 方面 的 文档 中 采用 规范 、 通 用 的 格式 。XML 中 最 为 精华 的 部 分 就 
是 DTD， 而 它 实质 上 就 是 一 个 上 下 文 无 关 文 法 ， 只 不 过 该 文法 描述 了 哪些 是 文档 中 允许 
出 现 的 标记 符 (Tag) 以 及 这 些 标记 符 在 文档 中 能 够 怎样 地 碟 套 起 来 。 标 记 符 是 一 些 用 类 
括号 括 起 来 的 常见 的 关键 字 ， 读 者 可 能 在 HTML 中 见 过 ， 例如，<EM> 和 </EM> 所 括 住 的 
文本 ， 它 是 需要 强调 的 。 不 过 ，XML 的 标记 符 不 是 用 来 控制 文本 的 格式 的 ， 而 是 和 文本 
的 含义 有 关 。 例 如 ， 如 果 你 想 要 表示 一 个 字符 序列 是 电话 号 码 ， 就 可 以 用 <PHONE> 和 
</PHONE> 来 括 住 它们 。 


[BS 


5.3.1 语法 分 析 器 


编程 语言 的 许多 方面 都 有 能 用 正则 表达 式 描 述 的 结构 。 例 如 ， 例 3.9 中 讨论 的 标识 符 就 可 以 
用 正则 表达 式 来 表示 。 然 而 ， 典 型 的 编程 语言 中 也 都 有 一 些 无 法 仅 用 正则 表达 式 就 能 表达 的 非 
前 重要 的 方面 。 下 面 就 是 两 个 例子 。 


例 5.19 ”典型 的 编程 语言 中 都 使 用 括号 ， 并 且 一 般 都 是 嵌 套 地 、 匹 配 地 使 用 。 所 谓 匹 配 就 
是 : 找到 一 个 左 括号 和 一 个 在 它 后 面 且 紧 跟着 它 的 右 括号 ， 同 时 去 掉 这 两 个 括号 ， 并 且 重 复 这 


Cy 
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个 过 程 ， 那 么 最 终 应 该 能 够 去 掉 所 有 的 括号 。 如 果 在 这 个 过 程 中 找 不 到 一 对 匹配 的 括号 ， 那 么 
这 个 串 中 的 括号 就 是 不 匹配 的 。 括 号 匹配 的 串 如 (0O)、00、(00) 和 s， 不 匹配 的 如 )C( 和 (0O。 
有 一 个 文法 Gou = ({B}, {(, )}, P, B) 刚 好 能 够 生成 所 有 的 插 号 匹配 的 串 ， 其 中 P 包 含 如 下 的 产 
生 式 : 
B—BBI(B)IE 


其 中 第 一 个 产生 式 8 一 88 是 说 :把 两 个 括号 匹配 的 串 连接 起 来 得 到 的 串 仍然 是 括号 匹配 的 。 这 
样 的 断言 是 有 意义 的 ， 因 为 我 们 可 以 分 别 对 这 两 个 串 进行 匹配 。 第 二 个 产生 式 8 一 (B) 是 说 :把 
一 个 括号 匹配 的 串 用 一 对 括号 括 起 来 所 得 到 的 串 仍然 是 括号 匹配 的 。 同 样 这 样 的 断言 也 是 有 意 
义 的 ， 因 为 如 果 中 间 的 串 是 匹配 的 ， 那 么 把 它 里 面 所 有 的 括号 都 去 掉 后 就 只 剩 下 最 外 边 的 一 对 
括号 ， 而 此 时 它们 仍然 是 匹配 的 。 第 三 个 产生 式 B 一 是 基础 ， 它 是 说 空 串 是 括号 匹配 的 。 

上 面 这 段 非 形式 化 的 论证 应 该 能 够 使 人 相信 Guu 产生 的 确实 是 所 有 的 括号 匹配 的 串 。 反 过 来 
需要 证 明 一 一 每 个 括号 匹配 的 串 都 能 够 由 这 个 文法 产生 。 不 过 ， 这 个 证 明 并 不 难 ， 只 需要 对 括 
号 匹配 的 串 的 长 度 进行 归纳 即 可 ， 因 此 我 们 把 该 证 明 的 细节 留 给 读者 作为 练习 。 

前 边 曾经 提 到 过 所 有 括号 匹配 的 串 的 集合 不 是 正则 语言 ， 现 在 证 明 这 一 事实 。 如 果 L(Gba ) 
是 正则 的 ， 那 么 根据 正则 语言 的 泵 引 理 ， 一 定 存在 一 个 和 该 语言 相关 的 常数 x。 考 虑 括号 匹配 的 
串 w = (""， 也 就 是 个 左 括号 后 面 跟着 n 个 右 括号 。 如 果 根据 泵 引 理 把 w 打 断 为 w = xyz， 那 么 ?只 
包含 左 括号 ， 因 此 串 尼 中 右 括号 就 比 左 括号 多 了 ， 因 而 xz 不 是 括号 匹配 的 ， 这 跟 括号 匹配 的 串 的 
语言 是 正则 语言 的 假设 相 矛 盾 。 吕 


当然 ， 除 了 括号 之 外 ， 编 程 语言 中 还 包含 许多 其 他 的 东西 ， 但 是 括号 确实 是 算术 或 条 件 表 
达 式 中 一 个 基本 的 组 成 部 分 。 虽 然 图 $-2 中 的 文法 中 只 用 了 两 个 运算 符 〈 加 号 和 乘 号 ) ， 并 且 它 
包含 了 详细 的 标识 符 的 结构 ， 该 结构 使 用 3.3.2 节 中 提 到 的 编译 器 的 词法 分 析 器 部 分 来 进行 处 理 
可 能 是 比较 适合 的 ， 但 它 仍 然 是 算术 表达 式 的 非常 典型 的 结构 。 然 而 ， 图 5-2 中 描述 的 语言 也 不 
是 正则 的 。 例 如 ， 在 这 个 语言 中 ，("a)" 是 合法 的 表达 式 。 可 以 通过 泵 引 理 来 证 明 : 如 果 这 个 语 
言 式 正则 的 ， 那 么 去 掉 一 些 左 括号 同时 保持 a 和 所 有 的 右 括 号 不 动 ， 这 样 得 到 的 串 应 该 仍然 是 合 
法 表达 式 ， 然 而 实际 上 不 是 。 

典型 的 编程 语言 中 有 很 多 方面 跟 插 号 匹配 很 相似 。 一 般 来 说 它们 本 身 也 是 括号 ， 可 以 在 各 
种 类 型 的 表达 式 中 。 例 如 ， 一 个 代码 块 的 开始 和 结束 ， 就 像 Pascal 语 言 中 的 begin 和 end， 或 者 C 
语言 中 的 花 括 号 {…}。 也 就 是 说 ， 如 果 把 C 程 序 中 的 花 括 号 替换 为 圆 括 号 ， 即 把 { 换 为 (， 把 } 换 
为 ) ， 这 样 所 得 到 的 串 一 定 是 括号 匹配 的 。 

有 时 会 出 现 另 外 一 种 相关 的 模式 ， 只 不 过 在 这 种 模式 中 “括号 ”匹配 时 不 考虑 未 被 匹配 的 
左 括号 。 比 如 C 语 言 中 处 理 证 和 else 的 时 候 ， 一 个 这 子 句 可 以 不 和 else 子 名 匹配 而 单独 存在 ， 也 可 
以 和 一 个 else 子 句 匹 配 。 一 个 生成 所 有 这 样 可 能 的 ielse 的 序列 的 文法 〈 其 中 jelse 分 别 用 ;和 e 
来 表示 ) 是 : 

S—ElSS1iS|iSes 


例如 ，ieie, iie 和 iei 都 是 可 能 的 站 和 else 的 序列 ， 而 且 都 是 用 上 面 的 文法 生成 的 。 也 有 一 些 不 
能 用 该 文法 生成 的 非法 序列 ， 比 如 ei 和 ieeii。 
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对 于 一 个 由 ;和 le 组 成 的 串 是 否 能 有 该 文法 生成 ， 有 一 个 简单 的 测试 方法 一 一 只 需要 从 左边 开 
始 依次 检查 每 个 e 即 可 ， 具 体 方法 如 下 (该 方法 正确 性 的 证 明 留 给 读者 作为 练习 ): 在 正在 考虑 
的 e 的 左边 寻找 第 一 个 i， 如 果 找 不 到 ， 那 么 这 个 串 就 无 法 通过 该 测试 ， 因 而 得 出 它 不 在 该 语言 中 
的 结论 。 如 果 找 到 了 这 个 ;， 那 么 就 把 它 和 正在 考虑 的 e 一 起 去 掉 ， 然 后 继续 重复 这 个 过 程 : 如 采 
没有 e 了， 那么 这 个 串 就 通过 了 这 个 测试 ， 因 而 得 出 它 在 该 语言 中 的 结论 。 如 果 还 有 e， 那 么 就 
继续 对 最 左边 的 e 进 行 上 面 的 检查 过 程 。 


例 5.20 考虑 串 iee， 第 一 个 e 与 它 左 边 的 i 匹配 ， 把 它们 去 掉 后 该 串 


变 成 了 e。 由 于 还 有 e， 因 此 要 继续 进行 检查 ， 但 这 次 没有 i 在 它 左边 了 ，| (人 

因此 测试 失败 了 ， 所 以 iee 不 在 该 语言 中 。 注 意 ， 这 个 结论 是 正确 的 ， if 《条件 ) 语 名 

因为 在 C 程 序 中 else 的 个 数 不 可 能 比 这 多。 pi 
再 来 看 一 个 例子 ， 考 虑 iieie。 第 一 个 e 跟 它 左 边 的 匹配， 把 它们 去 if (条 件 ) 语 句 ; 


掉 后 还 剩 下 iie。 这 个 e 继 续 和 它 左 边 的 i 匹配 ， 再 把 它们 去 掉 后 还 剩 下 i， else 语句 ; 
这 时 没有 e 了 ， 因 此 测试 成 功 通过 。 这 个 结论 也 是 有 意义 的 ， 因 为 iieie po 
所 对 应 的 C 程 序 的 结构 就 像 图 5-10 中 的 结构 。 事 实 上 ， 这 个 匹配 算法 同 
时 也 能 告诉 我 们 (及 C 编 译 器 ) 每 个 让 所 匹配 的 的 else (如 果 有 的 话 ) ”图 10 一 个 felse 结 构 ， 


其 中 的 两 个 else 分 别 和 它 
到 底 是 哪个 ， 如 采编 译 器 需要 创建 程序 员 所 设计 的 控制 流 逻 辑 ， 这 一 们 前 面 的 让 匹配 ， 第 一 个 
凡是 人 很 重要 的 。 口 证 股 有 elise 和 它 匹 配 


5.3.2 语法 分 析 器 生成 器 YACC 


语法 分 析 器 是 从 源 程 序 中 创建 语法 分 析 树 的 函数 ， 它 的 生成 过 程 已 经 被 所 有 的 UNIX 系 统 中 
都 有 的 YACC 命 令 规范 化 了 。YACC 的 输入 是 一 个 CEFG， 并 且 该 CEFG 的 具体 表示 方法 和 这 里 所 用 
到 的 只 在 具体 细节 上 有 所 不 同 。 每 个 产生 式 都 和 一 个 动作 相关 联 ， 而 这 个 动作 是 一 个 C 代 码 的 片 
段 。 当 语法 分 析 树 的 一 个 节点 《和 它 的 子 节 点 ) 被 创建 时 ， 它 们 相应 产生 式 所 对 应 的 这 段 C 代 码 
就 锌 执行 。 一 般 情况 下 ， 动 作 是 用 来 构造 这 个 市 反 的 代码 ， 尽 管 在 一 些 YACC 应 用 中 语法 分 析 树 
实际 上 并 没有 真正 的 被 构造 出 来 ， 这 时 该 动作 就 做 一 些 别 的 事情 ， 比 如 生成 一 段 目 标 代码 。 


例 5.21 图 5-11 中 是 一 个 YACC 中 的 CFG 的 例子 。 这 个 文法 
和 图 5-2 中 的 是 一 样 的 。 这 里 省 略 了 动作 部 分 ， 展 现 出 来 的 仅 
仅 是 它们 的 (需要 的 ) 花 括 号 和 它们 在 YACC 输 入 中 的 位 置 。 

注意 下 面 是 YACC 文 法 和 我 们 的 文法 表示 法 的 一 些 对 应 

关系 : 

"冒号 被 用 来 作为 产生 式 的 符号 ， 我 们 的 是 一 。 

* 所 有 具有 给 定 头 的 产生 式 都 被 编 为 一 组 ， 并 且 它 们 的 体 
互相 之 间 用 竖 线 分 隔 开 来 。 我 们 也 使 用 这 种 表示 法 ， 但 
不 是 必须 的 。 

“给 定 头 所 对 应 的 体 的 列表 用 一 个 分 号 结束 。 我 们 没有 使 ”图 5-11 一 个 YACC 中 的 文法 的 例子 
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用 这 样 的 结束 符号 。 

“终结 符 都 用 单 引 号 引起 来 。 很 多 字符 可 以 出 现在 一 对 单 引 号 中 。 虽 然 我 们 没有 展现 出 来 ; 
YACC 人 允许 它 的 用 户 自己 定义 终结 符号 。 在 源 程序 中 出 现 的 这 些 终结 符号 能 被 词法 分 析 器 
检测 和 分 离 出 来 ,， 并且 通 过 它 的 返回 值 传 递 给 语法 分 析 器 。 

*。 没 有 被 引起 来 的 字母 和 数字 组 成 的 串 是 变 元 名 。 我 们 已 经 通过 这 个 方法 来 赋予 上 面 两 种 变 
元 更 加 有 意义 的 名 字 一 一 Exp 和 Id 一 一 虽然 也 能 用 E 和 ! 来 表示 。 口 


5.3.3 ”标记 语言 


下 面 我 们 将 会 考虑 一 系列 的 “语言 ， 它 们 被 称 为 标记 语言 。 这 些 语 言 中 的 “ 串 ” 是 使 用 了 
一 些 该 语言 申 的 标记 ( 称 为 标记 符 ) 的 文档 。 标 记 符 告诉 我 们 一 些 该 文档 中 不 同 串 的 语义 。 
读者 可 能 最 熟悉 的 标记 语言 是 HTML。 这 个 语言 有 两 个 主要 的 功能 , 在 文档 之 间 建 立 链接 
197| ”并 的 述 一 个 文档 的 格式 (“样子”)。 这 里 只 给 出 一 个 关于 HTML 结 构 的 简单 看 法 ， 但 是 下 面 的 例 
子 能 够 展示 它 的 结构 ， 也 能 够 用 于 展示 一 个 CFG 是 怎样 描述 合法 的 HTML 文 档 的 ， 还 能 够 用 于 
展示 CFG 是 怎样 在 文档 的 处 理 过 程 ( 即 文档 在 显示 器 或 打印 机 上 的 显示 ) 中 起 到 引导 作用 的 。 


例 5.22 ”图 5-12a 展 示 了 一 段 文 字 ， 它 包括 了 一 个 项 目 列表 ， 图 5-12b 展 示 了 它 在 HTML 中 的 
表达 式 。 注 意 ， 从 图 5-12b 可 以 看 出 HTML 是 由 普通 的 文 


The things I hate: 


本 掺 杂 着 一 些 标记 符 组 成 的 。 对 某 个 申 * 的 标记 符 匹 配 | | Moiy bee 
是 采用 <x> 和 </x> 的 形式 完成 的 9。 例 如， 互相 匹配 的 | 2. People who drive too slow in the fast lane. 
标记 符 <EM> 和 </EM> 用 来 表示 它们 之 间 的 文本 是 需要 和 


<P>The things I <EM>hate</EM>: 


强调 表示 的 ， 也 就 是 要 把 它们 改 为 斜体 字 或 者 其 他 合适 | > 
的 字体 。 <OL> 和 </0L> 这 对 互相 匹配 的 标记 符 是 用 来 a too slow 
表示 一 个 有 序列 表 的 ， 也 就 是 说 一 些 项 的 列举 。 a pe 

故 外 还 有 两 个 不 匹配 标记 符 的 例子 :; <P> 和 <LI>， | </0L> 
它们 分 别 表示 有 段落 和 列表 项 。HTML 人 允许 (事实 上 鼓励 ) 
这 些 标记 符 也 用 </P> 和 </LI> 匹 配 起 来 (分 别 通 过 在 图 5-12 HTML 文 档 及 其 显示 版 本 
段落 和 列表 项 的 结尾 处 使 用 它们 ) ,但 是 这 种 匹配 不 是 必须 的 。 因 此 这 里 就 不 匹配 这 些 标记 符 了 ， 
这 样 的 话 下 边 将 要 考虑 的 HTML 文 法 就 会 更 复杂 一 些 ， - 


b) HTML 源 代码 





有 许多 类 的 串 和 HTML 文 档 相 关 。 这 里 不 把 它们 全 都 列 出 来 了 ， 而 是 仅仅 给 出 对 理解 例 5.22 
中 的 文本 有 关键 作用 的 一 些 ， 并 且 对 于 其 中 的 每 一 类 都 给 出 了 一 个 具有 描述 性 的 名 字 的 恋 元 - 
1. Text (文本 ) 是 任何 有 字面 意义 的 字符 串 ， 也 就 是 说 ， 它 里 面 没有 标记 符 。 一 个 7ext 元 素 
的 例子 是 图 5-12a 中 的 “Moldy bread.” 
2.Char (字符 ) 是 任何 只 包含 单个 的 、 在 HTML 文 本 中 合法 字符 的 串 。 注 意 ， 空 格 也 算 作 
字符 。 
3.Doc (文档 ) 代表 文档 ， 它 是 “元 素 ” 的 序列 ， 下 面 会 给 出 Element 的 定义 ， 并 目 这 个 定 


曲 ”有 时 标记 符 <x> 的 引入 不 仅仅 有 名 字 x 的 信息 ， 还 会 有 更 多 其 他 的 信息 。 然 而 ， 在 这 些 例子 中 不 考虑 这 种 情况 。 
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义 和 Doc 的 定义 是 互 递 归 的 。 
4. Element (元 素 ) 或 者 是 一 个 Text 串 ， 或 者 是 一 对 互相 匹配 的 标记 符 以 及 它们 中 间 的 文档 ， 
或 者 是 一 个 不 匹配 的 标记 符 后 面 跟着 一 个 文档 。 
5. Listltem (列表 项 ) 是 标记 符 <LI> 后 面 跟着 一 个 文档 ， 并 且 该 文档 是 一 个 列表 项 。 
6. List (列表 ) 是 包含 零 个 或 多 个 列表 项 的 序列 。 
图 5-13 是 一 个 CFG ， 它 描述 了 我 们 所 介绍 的 HTML 语言 中 的 各 种 结构 。 在 第 (1) 行 中 它 说 明 
了 一 个 字符 可 以 是 a 或 A ， 或 者 很 多 其 他 


可 能 的 HTML 字 符 集中 的 字符 。 第 (2) 行 中 它 用 两 A 

个 产生 式 说 明 7exr 可 以 是 空 串 或 者 任何 由 合法 字 | 2. e| Char Tezt 

符 后 面 跟着 一 些 文本 构成 的 串 。 换 句 话 说 ，Text Wo 2| Element Doc 

就 是 零 个 或 多 个 字符 。 注 意 ， 虽 然 “<” 和 “>” Ng ee 

可 以 分 别 用 序列 slt; 和 &gt; 来 表示 , 但 它们 并 | “ eens Duc c/n | 

不 是 合法 字符 。 因 此 ， 绝 对 不 可 能 取 一 个 标记 符 ‘ote | 

Text 中 <0L> List </0L> | …， 
第 (3) 行 是 说 下 个 信 档 是 包谷 零 个 骂 多 让 9 肌 相 汪汪 和 em4T70DS 

素 ” 的 序列 。 接 着 从 第 (4) 行 知道 一 个 元 素 或 者 oo -> | ListItem List 

是 文本 ， 或 者 是 强调 的 文档 ， 或 者 是 段落 初始 符 

号 后 面 跟着 一 个 文档 ， 或 者 是 一 个 列表 。 另 外 对 册 作 1 人 E 谢 法 的 一 部 分 


于 HTML 中 其 他 的 标记 符 也 有 相应 的 不 同 的 Element 的 产生 式 。 接 着 ， 第 (5) 行 说 一 个 列表 项 是 
由 标记 符 <LI> 和 它 后 面 跟着 的 任何 文档 组 成 的 。 第 (6) 行 说 明 一 个 列表 是 零 个 或 多 个 列表 项 的 
序列 。 

HIML 的 有 些 方面 的 说 明 并 不 需要 上 下 文 无 关 文 法 的 能 力 ， 在 这 些 方面 用 正则 表达 式 就 足 
够 了 。 例 如 ， 图 5-13 的 第 (D 行 和 第 (2) 行 可 以 用 正则 表达 式 (a + A + …)" 来 表示 和 Tex! 表 示 的 同样 
的 语言 。 然 而 ，HIML 的 有 些 方面 确实 需要 CFG 的 能 力 。 例 如 ， 每 一 对 包含 开始 和 结束 符号 的 
标记 符 对 (比如 <EM> 和 </EM>) 就 像 括 号 匹配 一 样 ， 已 知 其 为 非 正则 的 。 


5.3.4 XML 和 文档 类 型 定义 


能 用 文法 来 描述 HTML 不 算 什么 ， 事实 上 所 有 的 编程 语言 都 可 以 用 它们 自己 的 CFG 来 描述 ， 
因此 如 采 不 能 这 样 描述 HTML 反倒 令 人 惊讶 了 。 然 而 ， 当 考虑 另外 一 类 重要 的 标记 语言 XML 时 ， 
我 们 将 会 发 现在 使 用 这 个 语言 的 过 程 中 ，CFG 扮 演 着 至 关 重 要 的 角色 。 

XML 的 目的 不 是 描述 文档 的 格式 一 一 那 是 HTML 的 工作 ， 而 是 试 着 描述 文本 的 “语义 ?。 例 
如 ， 像 “12 Maple St， 这 样 的 文本 看 上 去 像 一 个 地 址 ， 但 是 它 是 吗 ? 在 XML 中 ， 代 表 一 个 地 址 
的 短语 往往 用 标记 符 围 起 来 ， 例 如 

<RDDR> 12 Maple St.</ADDR> 

然而 ， 对 于 <RADDR> 是 否 意味 着 一 收 建 筑 的 地 址 这 件 事情 并 不 是 很 清楚 。 例 如 ， 如 果 这 个 文 
档 是 关于 内 存 分 配 的 ， 那 么 标记 符 <ADDR> 可 能 会 表示 一 个 内 存 地 址 。 为 了 把 这 些 不 同类 型 的 标 





JR 


记 符 区 别 开 来 ， 人 们 希望 开发 一 个 标准 ， 该 标准 采用 DTD 的 形式 。 

一 个 DTD 本 质 上 就 是 一 个 上 下 文 无 关 文 法 ， 不 过 它 有 着 自己 的 用 来 描述 变 元 和 产生 式 的 记 
号。 下 面 的 例子 将 会 展示 一 个 简单 的 DTD， 并 且 会 介绍 用 来 描述 DTD 的 语言 的 一 部 分 。DTD 话 
言 本 身 有 一 个 上 下 文 无 关 的 文法 ， 但 它 并 不 是 我 们 有 兴趣 要 描述 的 。 然 而 ， 用 来 描述 DTD 的 语 
言 本 质 上 是 用 一 种 CFG 记 号 ， 我 们 想 知 道 在 这 个 语言 中 CFG 是 怎样 被 表达 出 来 的 。 


一 个 DTD 的 形式 如 下 : 
<IDOCTYBE “DTD 的 总 字 I 
元 素 定 义 的 列表 
于 


接 下 来 ， 元 素 定 义 的 形式 如 下 : 
<!ELEMENT 元 素 的 名 字 (元 素 的 描述 ) > 
元 素 的 描述 实质 上 是 正则 表达 式 。 这 些 正 则 表达 式 的 基础 是 ; 
1. 其 他 元 素 的 名 字 ， 表 示 一 个 类 型 的 元 素 可 以 出 现在 另 一 个 类 型 的 元 素 里 面 ， 就 像 在 
HTML 中 一 个 文本 列表 里 可 以 有 强调 的 文本 一 样 。 
2. 特殊 的 术语 #PCDATA， 代 表 任 何不 包含 XML 标 记 符 的 文本 。 这 个 术语 和 例 5.22 中 的 变 元 
Text 的 角色 相同 。 
允许 的 运算 符 有 : 
1.1 代表 并 ， 就 像 3.3.1 节 中 讨论 的 UNIX 的 正则 表达 式 记 号 中 那样 。 
2. 逗号 代表 连接 。 
3; 闭 包 运 算 符 有 三 种 ， 正 如 3.3.1 节 中 所 介绍 的 。 它 们 是 ; *， 最 常用 的 运算 符 ， 表 示 “…… 
的 入 次 或 多 次 出 现 ”，+， 表 示 “…… 的 一 次 或 多 次 出 现 ”，?， 表 示 “…… 的 零 次 或 二 
次 出 现 ”。 : 
可 以 用 括号 把 运算 符 和 它们 的 参数 括 起 来 ， 否 则 就 采用 通常 的 正则 表达 式 的 优先 级 。 


例 5.23 ”考虑 下 面 的 情况 : 假设 计算 机 销售 商 们 凑 到 一 起 想 要 建立 一 套 DTD 的 标准 ， 这 套 
标准 是 用 来 在 Web 上 发 布 他 们 正在 销售 的 各 种 PC 的 介绍 。 每 种 PC 的 介绍 将 会 给 出 一 个 型 号 ， 以 
及 这 个 型 号 的 特性 的 细节 描述 。 例 如 ，RAM 的 大 小 ， 磁 盘 的 数目 和 大 小 等 等 。 图 5-14 展 示 了 一 
个 假想 的 、 非 常 简单 的 刻画 个 人 计算 机 的 DTD。 

这 个 DTD 的 名 字 是 PcSpecs。 第 一 个 元 素 (就 像 CFG 的 初始 符号 ) 是 PCS (关于 PC 规格 的 
列表 )。 它 的 定义 部 分 PC* 说 明 一 个 PCS 包 含 零 个 或 多 个 条 目 ， 每 个 条 目 都 是 PC、 

接 下 来 看 到 的 是 元 素 PC 的 定义 ， 它 由 五 部 分 连接 而 成 ， 其 中 前 四 部 分 是 其 他 的 元 素 ， 分 别 
对 应 着 PC 的 型 号 、 价 格 、 处 理 器 类 型 和 RAM。 由 于 逗号 表示 连接 ， 因 此 这 几 部 分 必须 刚好 出 现 
一 次 ， 并 且 是 按照 顺序 出 现 。 最 后 一 个 组 成 部 分 是 DISK+， 表 示 一 个 PC 中 可 以 有 一 个 或 多 个 磁 
盘 条 目 。 

很 多 组 成 部 分 都 是 简单 的 文本 ，MODEL、PRICE 和 RAM 都 是 这 种 类 型 。 但 是 PROCESSOR 是 
有 结构 的 ， 从 它 的 定义 可 以 看 出 来 它 由 生产 厂家 、 型 号 和 速度 这 三 部 分 按 顺 序 构成 ， 这 三 部 分 

都 是 简单 的 文本 。 


法 信 党 无 尖 交 法 及 让 区 无关 太吉 


<!IDOCTYPE PcSpecs [ 


<!ELEMENT 
<!ELEMENT 
<!ELEMENT 
<!ELEMENT 
<!ELEMENT 
<!ELEMENT 
<!ELEMENT 
<!ELEMENT 
~<!ELEMENT 
<!ELEMENT 
<!1ELEMENT 
<!ELEMENT 
<!ELEMENT 
<!ELEMENT 


PCS (PC*)> 


PC (MODEL, PRICE, PROCESSOR, RAM, DISK+)> 


MODEL (#PCDATA)> 

PRICE (#PCDATA)> 

PROCESSOR (MANF, MODEL, SPEED)> 
MANF (#PCDATA)> 

MODEL (#PCDATA)> 

SPEED (#PCDATA)> 

RAM (#PCDATA)> 

DISK (HARDDISK | CD | DVD)> 
HARDDISK (MANF, MODEL, SIZE)> 
SIZE (#PCDATA)> 

CD (SPEED)> 

DVD (SPEED)> 





图 5-14 一 个 刻画 个 人 计算 机 的 DTD 

DISK 条 目的 结构 最 为 复杂 。 首 先 ， 一 个 磁盘 可 以 是 硬盘 、CD 或 者 DVD， 这 从 元 素 DISK 的 
规则 可 以 看 出 ，DISK 定 义 为 这 三 者 的 “或 。 接 下 来 ， 硬 盘 也 由 三 个 部 分 按 顺 序 构成 ， 它 们 分 
别 是 生产 三 家、 型 号 和 大 小 ， 而 CD 和 DVD 仅 仅 由 它们 的 速度 来 代表 。 
图 5-15 是 一 个 使 用 图 5-14 中 的 DTD 的 XML 文档 的 例子 。 注 意 到 在 这 个 文档 中 ， 每 个 元 素 都 

用 两 个 标记 符 来 表示 ， 其 中 一 个 是 带 有 该 元 素 名 字 的 标记 符 ， 另 一 个 在 结束 处 和 它 对 应 。 其 中 
表示 结束 的 标记 符 不 过 是 在 该 元 素 的 名 字 前 面 加 了 一 个 斜 杠 而 已 ， 这 和 HTML 中 是 一 样 的 。 因 
而 ， 在 图 5-15 中 可 以 看 到 最 外 层 的 标记 符 是 <PCS>. " "</PCS>。 这 个 标记 符 里 面 是 一 系列 的 条 


<PCS> 


<PC> 


<MODEL>4560</MODEL> 
<PRICE>$2295</PRICE> 
<PROCESSOR> 
<MANF>Intel</MANF> 
<MODEL>Pent ium</MODEL> 
<SPEED>800MHz</SPEED> 
</PROCESSOR> 
<RAM>256</RAM> 
<DISK><HARDDISK> 
<MANF>Maxtor</MANF> 
<MODEL>Diamond</MODEL> 
<SIZE>30.5Gb</SIZE> 
</HARDDISK></DISK> 
<DISK><CD> 
<SPEED>32x</SPEED> 
</CD></DISK> 


</PC> 
<PC> 


</PC> 
</PCS> 


图 5-15 一 个 遵照 图 5-14 中 DTD 结 构 的 文档 的 一 部 分 
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目 ， 每 一 个 代表 该 生产 商 所 销售 的 一 种 PC， 这 里 仅 展示 出 来 其 中 的 一 个 条 目 。 

通过 例 中 的 条 目 <PC> ， 我 们 可 以 很 容易 地 看 到 机 器 的 型 号 是 4560， 价 格 是 $2295， 处 理 器 
是 800MHz Intel Pentium 处 理 器 。 它 有 256Mb 的 RAM 一 个 30.5Gb 和 的 Maxtor Diamond 硬 盘 和 一 个 
32x CD-ROM 驱 动 器 。 其 实 最 重要 的 并 不 是 我 们 能 看 到 这 些 东 西 ， 而 是 程序 能 够 读 取 这 个 文档 ， 
并 且 能 够 根据 图 5-14 中 的 DTD 的 文法 来 正确 的 解释 图 5-15 中 所 有 的 数字 和 名 字 。 上 


读者 可 能 已 经 注意 到 了 ， 图 5-14 中 这 样 的 DTD 中 元 素 的 规则 看 上 去 和 上 下 文 无 关 文法 的 产 
生 元 并 不 是 很 像 。 这 些 规则 中 的 大 部 分 已 经 是 正确 的 形式 了 。 例 如 ， 
<!ELEMENT PROCESSOR (MANF, MODEL, SPEED)> 


和 下 面 这 个 产生 式 很 类 似 
Processor—Manf Model Speed 


然而 ， 规 则 
<!ELEMENT DISK (HARDDISK | CD | DVD)> 


有 并 不 像 一 个 产生 式 体 的 DISK 的 定义 。 在 这 种 情况 下 ， 推 广 的 方法 很 简单 ， 只 要 把 这 条 规则 解 
释 成 为 三 个 产生 式 ， 它 们 的 体 用 竖 杠 连接 起 来 ， 这 里 坚 杠 的 作用 与 拥有 同样 的 头 的 产生 式 中 的 
相同 。 因 此 ， 这 条 规则 和 下 面 的 三 个 产生 式 等 价 : 

Disk—HardDisk| Cd| Dvd 


最 难 转换 的 一 种 情况 是 
<!ELEMENT PC (MODEL, PRICE, PROCESSOR, RAM, DISK+)> 
其 中 “ 体 ” 里 有 一 个 闭 包 运算 符 。 解 决 的 方法 是 把 DISK+ 用 一 个 新 的 变 元 Disks 来 代替 ， 它 通过 
一 对 产生 式 来 产生 变 元 Diwk 的 一 个 或 多 个 实例 。 因 此 ， 等 价 的 产生 式 是 
Pc—Model Price Processor Ram Disks 
Disks— Disk | Disk Disks 


有 一 个 通用 的 方法 能 够 把 产生 式 体 中 包含 正则 表达 式 的 CFG 转 换 成 普通 的 CFG。 这 里 先 非 
形式 化 的 给 出 基本 思想 ， 读 者 也 许 希 望 不 仅仅 把 产生 式 体 中 包含 正则 表达 式 的 CFG 变 成 正规 的 
CFG， 并 且 希 望 能 够 形式 化 证 明 经 过 这 样 的 扩展 变换 之 后 并 没有 产生 超出 这 个 CFL 之 外 的 新 的 
语言 。 下 面 将 会 归纳 地 给 出 把 体 中 包含 正则 表达 式 的 产生 式 变 成 一 系列 和 它 等 价 的 普通 的 产生 
却 的 方法 。 这 个 归纳 是 对 产生 式 体 中 的 正则 表达 式 的 大 小 来 进行 的 。 

基础 : 如 果 产 生 式 的 体 是 几 个 元 素 的 连接 ， 那 么 这 个 产生 式 已 经 是 合法 的 CFG 的 产生 式 形 
式 了 ， 因 此 什么 都 不 用 做 。 

归纳 : 否则 ， 将 根据 最 后 使 用 的 运算 符 来 采取 下 面 五 种 情况 下 的 方案 之 一 。 

1. 该 产生 式 是 4 一 已 , EE 的 形式 ， 其 中 El 和 Es 都 是 DTD 语 言 中 允许 的 表达 式 ， 这 是 一 个 连接 

的 情况 。 引 进 两 个 新 的 变 元 B 和 C， 并 且 它 们 不 能 在 该 文法 的 其 他 地 方 出 现 。 把 A 一 Ei, 羽 
替换 为 下 面 的 一 组 产生 式 ; 
4 一 BC 


小 下 将 无 关 艾 法 及 上 下 艾 无 类 语 写 


B 一 已 
C=»E, 

人 

也 可 能 是 合法 的 )。 
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其 中 第 一 个 产生 式 4 一 8C 是 合法 的 CFG 的 产生 式 ， 后 面 两 个 有 可 能 并 不 是 合法 的 (当然 
程 来 把 它们 转换 为 CEG 的 形式 就 行 了 。 
代替 : 


可 让 
然而 它们 的 体 要 短 于 原来 的 产生 式 的 体 ， 因 此 只 要 继续 应 用 归纳 的 过 


4 一 已 


此 只 

2. 该 产生 式 是 A 一 Ei 1 Es 的 形式 。 对 于 这 个 并 运算 符 ， 把 这 个 产生 式 用 下 面 的 一 对 产生 式 来 
A—E,» 

。 因 此 

形式 的 新 的 产生 式 


个 产生 式 替 换 为 


同样 ， 这 些 产生 式 也 可 能 是 或 者 不 是 合法 的 CFG 产 生 式 ,但 是 它们 的 体 一 定 比 原来 的 产 
生 式 的 体 要 短 。 因 此 可 以 递归 地 应 用 转换 规则 并 最 终 把 这 些 新 的 产生 式 转 换 为 符合 CFG 


3. 该 产生 式 是 4 一 (E1) 的 形式 。 这 时 要 引入 一 个 新 的 变 元 B (8B 不 能 在 别处 出 


)， 然后 把 这 
204 
A—BA 
A—&€ 
B—Ei 
4. 该 产生 式 是 4 一 (E1)! 的 形式 。 这 时 要 引入 一 个 新 的 变 元 B (8B 不 能 在 别处 出 现 ), 然后 把 这 
个 产生 式 蔡 换 为 
4 一 BA 
4 一 有 
Bbi 
5. 该 产生 式 是 4 一 (ED? 的 形式 。 把 这 个 产生 式 替换 为 
ME 


A—Ei 
例 5.24 下 面 来 考虑 怎样 把 DID 规则 


由 
<!ELEMENT PC (MODEL, 


PRICE, PROCESSOR, 
转换 为 合法 的 CFG 产 生 式 。 首 先 ， 这 条 规则 的 体 可 以 看 作 两 个 表达 式 的 连接 ， 第 一 个 是 MODEL 
达 式 ， 就 可 以 使 用 下 面 的 产生 式 


RAM, 


DISK+)> 
PRICE，PROCESSOR，RAM， 第 二 个 是 DISK+ a ee 
Pc—AB 
B— Disk + 


A— Model Price Processor Ram 


其 中 仅 有 最 后 一 个 产生 式 .不 是 合法 的 形式 。 这 时 再 引入 男 一 个 新 的 变 元 C 和 两 个 新 的 产生 式 来 代 


kD 
OO 
Un 


B—>CBIC 
C—Disk 
在 这 个 特例 下 ， 由 于 A 推导 的 表达 式 仅仅 是 几 个 变 元 的 连接 ,而 Disk 仅 仅 是 一 个 单个 的 变 元 ， 
因此 实际 上 没 必要 有 A 和 C 这 两 个 变 元 ， 可 以 用 下 面 的 产生 式 来 代 赫 它 们 : 
Pe—Model Price Processor Ram B 
B—Disk B | Disk 口 


5.3.5 习题 


习题 5.3.1 ”证 明 : 如 果 一 个 串 是 括号 匹配 的 ， 就 像 例 5.19 中 所 说 的 那样 ， 那 么 它 一 定 能 用 
文法 B 一 BB1(B) | s 来 生成 。 提 示 : 对 串 的 长 度 进 行 归纳 。 

* 习题 5.3.2 ”考虑 同时 包含 圆 括号 和 方 括号 且 这 两 种 括号 都 匹配 的 所 有 串 的 集合 . 这 种 串 来 
目下 面 一 个 例子 。 考 虑 C 语 言 中 的 表达 式 ， 圆 括号 表示 分 组 和 函数 调用 的 参数 ， 方 括号 表示 数组 
的 下 标 。 如 果 把 C 语 言 中 的 表达 式 里 除了 括号 以 外 的 字符 都 去 掉 ， 那么 就 得 到 这 两 种 类 型 的 括号 
匹配 的 串 了 。 例 如 ， 

人 (alij*(b[li]lIh Stg(x)]), dtil) 
就 变 成 了 一 个 括号 匹配 的 串 ([]([][][O])D)。 试 着 设计 一 个 文法 来 恰好 定义 所 有 的 圆 括号 和 方 
括号 都 匹配 的 串 。 

! 习题 5.3.3 在 5.3.1 节 中 ， 考 虑 了 下 面 的 文法 : 

S—ElSSIiSliSes 

并 且 当 时 说 过 可 以 通过 重复 使 用 下 面 的 方法 来 测试 它 的 语言 Z 的 成 员 性 ， 这 个 测试 过 程 从 w 开 始 ， 
并 且 在 这 个 重复 的 过 程 中 串 w 会 发 生变 化 。 

1. 如 采 这 个 串 是 从 e 开 始 的 ， 那 么 测试 失败 ;，w% 不 在 天 中 。 

2. 如 果 串 里 没有 e 了 (还 可 以 有 i) ， 那 么 测试 通过 ，w 在 LL 中 ，。 

3. 否则 ， 删 掉 第 一 个 e 和 它 左 边 的 !， 然 后 继续 对 剩 下 的 串 进 行 这 三 个 步骤 的 测试 ， 

证 明 : 这 个 测试 过 程 能 够 正确 地 识别 出 中 的 串 。 

习题 5.3.4 把 下 面 的 格式 加 入 到 图 $-13 中 的 HTML 的 文法 中 去 ， 

* a) 列表 项 必须 用 标记 符 </LI> 来 结束 。 

b) 元 素 可 以 是 无 序列 表 ， 就 像 有 序列 表 一 样 。 无 序列 表 是 用 标记 符 <UL> 和 </UL> 括 住 来 表 
示 的 。 

! 0) 元 素 可 以 是 一 个 表格 。 表 格 是 用 <TABLE> 和 </TRABLE> 括 起 来 表示 的 . 在 这 两 个 标记 符 
里 面 可 以 有 一 行 或 多 行 ， 每 一 行 都 用 <TR> 和 </TR> 括 起 来 表示 。 第 一 行 是 标题 ， 包含 一 
个 或 多 个 域 ,分 别 用 标记 符 <TH> 来 引入 “(假设 它们 不 是 闭 的 ， 虽 然 它 们 应 该 是 )。 接 下 
来 的 行 用 标记 符 <TD> 来 引入 它们 的 域 。 

习题 5.3.5 把 图 5-16 中 的 DTD 转 换 为 上 下 文 无 关 文 法 。 
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<!D0OCTYPE CourseSpecs [ 
<!ELEMENT COURSES (COURSE+)> 
<“!ELEMENT COURSE (CNAME, PROF, STUDENT*, TA?)> 
<!ELEMENT CNAME (#PCDATA)> 


<!IELEMENT PROF (#PCDATA)> 
<!ELEMENT STUDENT (#PCDATA)> 
<!ELEMENT TA (#PCDATA)> 





图 5-16 课程 的 DTD 


5.4 文法 和 语言 的 歧义 性 


前 面 已 经 看 到 ，CFG 的 应 用 往往 立足 于 使 用 文法 来 提供 文件 的 结构 。 例 如 ， 在 5.3 节 中 使 用 
文法 来 定义 程序 和 文档 的 结构 。 其 中 不 言 而 喻 的 假定 是 文法 能 惟一 地 决定 它 的 语言 里 每 个 串 的 
结构 。 然 而 ， 下 面 将 会 看 到 并 不 是 每 一 个 文法 都 能 提供 这 种 惟一 的 结构 。 

如 朱 一 个 文法 不 能 提供 惟一 的 结构 ， 那 么 有 时 可 以 通过 重新 设计 这 个 文法 ， 使 结构 对 于 其 
语言 中 的 每 一 个 串 是 惟一 的 。 但 不 幸 的 是 ， 有 时 却 无 法 达到 这 个 目的 。 也 就 是 说 ， 的 确 存在 这 
样 的 一 类 CFL， 它 们 具有 “固有 的 歧义 性 ”, 这 类 语言 的 每 一 个 文法 都 对 该 语言 中 的 某 些 串 提供 
多 于 一 个 的 结构 。 


5.4.1 歧义 文法 
下 面 回 到 一 直 使 用 的 例子 上 来 : 图 5-2 中 的 表达 式 文法 。 使 用 这 个 文法 能 够 生成 任何 包含 * 
和 + 运算 符 的 序列 ， 而 且 产 生 式 E 一 E+ElE*E 人 允许 按照 任何 选 定 的 顺序 来 生成 这 些 表达 式 。 


例 5.25 例如 ， 考 虑 句 型 E+ Ex*#E， 从 E 到 它 有 两 种 推导 : 

lI. b=—=b+i+bE=>E+E*E 

2. E>E*E=E+E*E 

注意 ， 在 推导 (1) 中 ， 第 二 个 E 是 用 E * E 来 赫 换 的 ， 而 在 推导 (2) 中 第 一 个 E 是 用 E + 已 来 替换 。 
图 5-17 给 出 了 这 两 棵 语法 分 析 树 ， 需 要 注意 它们 是 不 同 的 语法 分 析 树 。 


be PY 
We i i 


a) b) 

图 5-17 具有 同样 产物 的 两 棵 语法 分 析 树 
这 两 个 推导 的 不 同 之 处 是 有 意义 的 。 如 果 考 虑 表达 式 的 结构 ， 推导 (1) 说 第 二 个 和 第 三 个 表达 
式 先 相 乘 ,结果 再 和 第 一 个 表达 式 相 加 ;而 推导 (2) 则 表示 先 把 前 两 个 表达 式 相 加 ， 再 把 它们 的 和 


“办 OO a as tat es 


跟 第 三 个 表达 式 相 乘 。 举 一 个 更 具体 的 例子 ， 第 一 个 推导 认为 1 + 2 * 3 应 该 结合 成 1 + (2 * 3) = 7， 
而 第 二 个 推导 则 认为 它 应 该 结合 成 (1 + 2) * 3 = 9。 很 明显 ， 是 第 一 个 而 不 是 第 二 个 推导 与 在 数学 
中 对 表达 式 正 确 结合 的 概念 相 一 致 。 
由 于 图 5-2 中 的 文法 对 通过 在 推导 过 程 中 用 一 个 标识 符 来 替换 E + 五 * E 所 推 得 的 任何 终结 符 
串 都 给 出 两 种 不 同 的 结构 ， 所 以 该 文法 对 于 提供 表达 式 的 惟一 结构 来 说 不 是 最 好 的 选择 。 在 实 
际 应 用 中 ， 尽 管 它 可 以 给 出 像 算术 表达 式 那 样 的 正确 结合 ， 但 它 也 可 能 给 出 错误 的 表达 式 中 的 
结合 方式 。 为 了 在 编译 器 中 使 用 这 个 表达 式 文 法 ， 需 要 对 它 进 行 一 些 修 改 ， 使 它 能 够 提供 惟一 
正确 的 表达 式 中 的 结合 方式 。 口 


另 一 方面 ， 如 果 一 个 文法 仅仅 是 对 于 一 个 串 存在 不 同 的 推导 (而 不 是 不 同 的 语法 分 析 树 ) 
并 不 意味 这 个 文法 中 存在 缺陷 。 下 面 就 是 一 个 例子 。 


例 5.26 ”使 用 同样 的 表达 式 文法 ， 可 以 发 现 对 串 a + 5b 有 许多 不 同 的 推导 ， 其 中 的 两 个 例子 
号 

1. EE+E==I+E=>a+E=at+lI=>a+b 

2. E>E+t+E=>E+I=I+I 二 1+b=>a+b 
然而 ， 这 些 推 寻 所 提供 的 结构 并 没有 本 质 的 区 别 ， 它 们 都 是 说 ac 和 2 是 标识 符 ， 而 且 都 要 把 它们 
的 值 相 加 。 事 实 上 ， 如 果 使 用 定理 $.18 和 定理 5.12 中 的 构造 过 程 ， 这 两 个 推导 产生 一 样 的 语法 分 
析 树 。 口 


上 面 的 两 个 例子 告诉 我 们 并 不 是 多 种 推导 导致 了 歧义 性 ， 而 是 存在 多 棵 不 同 的 语法 分 析 树 
所 导致 的 。 因 此 ， 我 们 说 一 个 CFG G = (Y, T, P, 5) 是 战 义 的 ;如 果 六 中 至 少 存在 一 个 串 w， 对 于 
这 个 串 可 以 找到 两 棵 不 同 的 语法 分 析 树 满足 如 下 条 件 : 它们 的 根 都 是 $5， 产物 都 是 w。 如 果 一 个 
文法 使 得 任意 的 串 都 最 多 只 对 应 一 棵 语法 分 析 树 ， 那 么 该 文法 就 是 无 歧义 的 。 
例如 ， 例 5.25 几 乎 就 已 经 给 出 了 一 个 图 5-2 中 文法 歧义 性 的 证 明 。 我 们 只 需要 证 明 图 5$-17 中 
的 语法 分 析 树 能 够 经 过 补充 后 产生 终结 符 串 的 产物 。 图 5-18 就 是 这 个 补充 过 程 的 一 个 例子 。 


pe to 
1 


1 1 


a 1 I 7 7 a 


a) b) 


图 5-18 产物 为 a + a * a 的 树 ， 证 实 了 表达 式 文法 的 歧义 性 
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5.4.2 去 除 文法 的 歧义 性 


在 理想 的 情况 下 ， 应 该 能 够 有 一 个 算法 能 够 从 CFG 中 去 除 歧 义 性 ， 这 一 点 在 很 大 程度 上 就 
像 4.4 节 中 提供 的 那个 用 来 去 除 有 穷 自动 机 里 多 余 状 态 的 算法 。 然 而 ， 令 人 惊讶 的 事实 是 ， 就 像 
将 要 在 9.5.2 市 中 证 明 的 那样 ， 实 际 上 即使 想 要 首先 判断 一 个 CFG 是 不 是 歧义 的 ， 也 不 存在 一 个 
算法 能 够 实现 。 而 且 ，5.4.4 节 中 将 会 展示 一 个 上 下 文 无 关 语 言 ， 对 它 而 言 只 存在 歧义 的 文法 ， 
根本 不 存在 无 歧义 文法 。 对 这 样 的 语言 来 说 ， 去 除 歧义 性 是 不 可 能 的 。 
幸运 的 是 ， 在 实际 应 用 中 这 种 情况 并 不 很 严重 。 对 于 一 般 的 编程 语言 中 出 现 的 结构 ， 可 用 
一 种 熟知 的 方法 来 消除 其 中 的 歧义 性 。 图 5-2 中 的 表达 式 文法 就 很 典型 ， 所 以 下 面 将 会 把 研究 如 
何 去 除 它 的 歧义 性 的 过 程 作为 一 个 重要 的 例子 。 
自 先 ， 我 们 注意 到 有 两 个 导致 图 5-2 中 的 文法 的 歧义 性 的 原因 
1. 没 有 考虑 运算 符 的 优先 级 。 虽 然 图 5-17a 中 正确 地 结合 了 * ( 先 于 结合 +)， 然 而 图 5-17b 也 
契 一 个 正确 的 语法 分 析 树 (结合 + 先 于 *)。 在 一 个 无 歧义 的 文法 中 将 只 允许 图 5-17a 中 的 
结构 。 
2. 一 系列 同样 的 运算 符 既 可 从 左 到 右 也 可 从 右 到 左 地 结合 。 例 如 ， 如 果 图 5-17 中 的 * 全 部 换 
成 +， 那 么 对 于 串 E + E + E 将 会 得 到 两 棵 不 同 的 语法 分 析 树 。 因 为 加 法 和 乘法 都 满足 结合 
律 ， 因 此 不 管 从 左 到 右 还 是 从 右 到 左 的 结合 都 无 所 谓 ， 但 是 为 了 去 除 歧义 性 ， 必 须 选择 
其 中 一 种 结合 方式 。 习 惯 的 做 法 是 坚持 从 左 到 右 的 结合 ， 所 以 只 有 图 5-17b 中 的 结构 是 两 
个 加 号 的 正确 结合 方式 。 









YACC 中 歧义 性 的 消除 


如 霖 这 里 使 用 的 表达 式 文法 是 歧义 的 ， 那 么 我 们 可 能 会 疑虑 图 5-11 中 的 YACC 样 本 程序 
是 否 是 现实 的 。 没 错 ， 它 所 描述 的 文法 确实 是 歧义 的 ， 但 是 YACC 语 法 分 析 器 生成 器 的 强 
大 功能 中 的 一 部 分 正 是 来 源 于 为 用 户 提供 去 除 绝 大 部 分 导致 歧义 性 的 因素 的 机 制 。 对 于 表 
达 式 文法 ， 只 要 坚持 下 面 两 条 就 足以 去 除 歧 义 性 了 ， 

a) * 比 + 的 优先 级 高 ， 也 就 是 说 ，* 总 是 在 它 两 边 的 + 结合 之 前 结合 。 这 条 规则 告诉 我 们 

在 例 5.25 中 要 使 用 推导 (1) 而 不 是 推导 (2)。 
b) * 和 + 都 是 左 结合 的 ， 也 就 是 说 ， 一 些 用 * 连 接 的 表达 式 总 是 被 从 左 向 右 地 结合 起 来 ， 
对 用 + 结合 的 表达 式 也 同样 。 

YACC 人 允许 我 们 规定 运算 符 的 优先 级 ， 只 要 把 尼 们 措 卫 俯 侈 光 肯 生生 到 此 高 的 关 床 扩 
列 起 来 即 可 。 从 技术 上 说 ， 一 个 运算 符 的 优先 级 将 在 如 下 产生 式 中 应 用 :这 个 产生 式 的 运 
算 符 是 产生 式 体 的 最 右 端的 终结 符号 。 我 们 也 可 以 用 关键 字 %81eft 和 s%right 声 明 运算 符 
钙 左 结合 的 还 是 右 结 合 的 。 例 如 ， 为 了 声明 + 和 # 都 是 左 结合 的 ,并且 * 比 + 的 优先 级 高 ,我 
们 只 需要 在 图 5$-11 中 的 文法 的 开头 部 分 写 上 如 下 的 句子 ， 
$left “+: 
Sleft ‘“*’ 
















DD 
DD 
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强制 优先 级 的 问题 的 解决 方法 是 引入 几 个 不 同 的 变 元 ， 每 个 变 元 代表 拥有 同样 级 别 的 “ 笑 
结 强度 ”的 那些 表达 式 。 更 明确 的 说 就 是 : 

1. 因子 是 不 能 被 相 邻 的 运算 符 (包括 x* 和 +) 打 断 的 表达 式 ， 因 此 在 我 们 的 表达 式 文 法 中 的 

因子 只 有 : 

(a) 标识 符 一 一 不 可 能 通过 增加 运算 符 的 方法 来 把 一 个 标识 符 打 断 。 

(b) 任何 被 括号 括 起 来 的 表达 式 一 一 无 论 括号 里 面 括 的 是 什么 。 括 号 的 用 处 正 是 用 来 防止 
括号 里 面 的 内 容 成 为 括号 外 面 的 运算 符 的 操作 数 。 

2. 项 是 不 能 被 相 邻 的 + 打 断 的 表达 式 。 在 我 们 的 例子 中 ， 只 有 + 和 #* 是 运算 符 ， 因 此 项 就 是 
一 个 和 几 个 因子 的 乘积 。 例 如 ， 项 a * b 是 可 以 被 打 断 的 ， 只 要 采用 左 结 合 的 规则 并 且 把 
al * 放 到 它 的 左边 ， 也 就 是 说 ，al * a * b 被 结合 为 (al * a) * bp， 因 而 a * b 被 打 断 了 。 然 
而 ， 仅 仅 在 它 的 左边 放置 一 个 加 号 项 (比如 al+) 或 在 它 的 右边 放置 tal 是 无 法 打 断 a * b 
的 ，al + a *b 的 正确 结合 是 al + (a * b)，a * b+ al 的 正确 结合 是 (a * b) + al 。 

3. 表达 式 是 指 任何 可 能 的 表达 式 ， 其 中 包括 可 以 被 相 邻 的 * 或 + 打 断 的 表达 式 。 因 此 ， 我 们 
的 例子 中 的 表达 式 就 是 一 个 或 多 个 项 的 和 。 





例 5.27 ”图 5-19 展 示 了 一 个 无 歧义 的 表达 式 文 法 ， 它 和 图 5-2 中 的 文法 产生 同样 的 语言 。 考 
虑 变 元 FF，T 和 E， 它 们 的 语言 分 别 是 上 文中 定义 的 因子 、 op ia lb ro 
项 和 表达 式 。 例 如 ， 对 于 串 a + a * a， 该 文法 只 允许 有 一 7 | (E) 
棵 语法 分 析 树 ， 如 图 5-20 所 示 。 ng 

关于 这 个 文法 是 无 歧义 的 事实 还 不 很 明显 ， 下 面 是 一 
些 关键 的 事实 ， 它 们 能 够 解释 为 什么 这 个 语言 中 的 串 不 可 图 5-19 一 个 无 歧义 性 的 表达 式 文法 
能 拥有 两 棵 不 同 的 语法 分 析 树 。 

。 从 7 推导 出 的 任何 串 〈 项 ) 一 定 是 一 个 或 多 个 用 * 连 接 的 因子 。 我 们 定义 的 因子 ， 在 图 5-19 

中 就 是 F 的 产生 式 所 定义 的 ， 它 或 者 是 标识 符 或 者 是 一 

个 用 括号 括 起 来 的 表达 式 。 

.7 的 两 个 产生 式 的 形式 能 够 决定 一 序列 的 因子 的 语法 分 et 





十 二 
析 树 只 能 是 把 fi* fx…*f (n > 1) 打 断 为 项 fi*fp*…#f-1 和 | 2 从、、 
因子 无 的 树 s 原因 是 从 F 无 法 推导 出 万 ,大 这 样 的 表达 地 TF 
式 ， 除 非 把 它们 用 括号 括 起 来 。 因 而 ， 当 使 用 产生 式 T | 
一 了 * FF 时，F 除 了 最 后 一 个 因子 之 外 不 可 能 推导 出 别 的 F 
| 


| 
F 了 
东西 。 也 就 是 说 ,项 的 语法 分 析 树 只 能 像 图 5-21 中 的 屠 | | 
样 的 。 I 7 a 
“同样 的 ， 一 个 表达 式 就 是 用 + 连接 起 来 的 一 系列 的 项 。 当 上 
使 用 产生 式 E 一 E+7 来 推导 ++…++ 刀 时 ,7 只 能 推导 出 ， a a 
体 中 的 E 只 能 推导 出 t+ +… + 1。 原因 同样 是 : 如 果 不 图 5-20 a+a*a 的 惟一 
使 用 括号 的 话 ，7 不 可 能 推导 出 两 个 或 多 个 项 的 和 。 ” 口 的 语法 分 析 树 
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图 5-21 一 个 项 的 所 有 可 能 的 语法 分 析 树 的 形式 


5.4.3 最 左 推导 作为 表达 收 义 性 的 一 种 方式 


即使 文法 是 无 尽 义 的 ， 推 导 也 有 可 能 不 惟一 。 但 下 面 的 结论 总 是 成 立 的 : 在 无 歧义 的 文法 
中 ， 最 左 推导 是 惟一 的 ， 最 右 推 导 也 是 惟一 的 。 下 面 只 考虑 最 左 推导 ， 最 右 推导 只 给 出 结论 。 


例 5.28 作为 一 个 例子 ,注意 图 5-18 中 的 两 棵 产物 为 E + E * E 的 语法 分 析 树 。 如 果 从 它们 出 
发 构造 最 左 推导 ， 将 会 分 别 得 到 两 棵 树 (图 5-18a 和 图 5-18b) 的 最 左 推导 如 下 : 


a) E—E+E=I+E—>at+bE=—atE:*E=—>at+l*bE=—>ata*E=—a+a*[=>a+a*a 
im lm im lm lm Im lm lm 

b) EE*E=—>E+E*E—>I+E*Eb=—>atE*E=—>at+l*E=—>ata*E=ata*l=—>at+a*a 
im lm lm im Im lim tm Im 


注意 ， 这 两 个 最 左 推导 并 不 相同 。 这 个 例子 并 不 能 证 明 下 面 的 定理 ， 但 它 说 明了 语法 分 析 
树 的 不 同 寻 致 了 最 左 推导 中 所 采用 的 步骤 不 同 。 口 


定理 5.29 对 于 任何 文法 G = (V, 7T, P, S) 和 7 中 的 串 w，w 有 两 棵 不 同 的 语法 分 析 树 当 且 仅 当 
从 S$ 到 w 有 两 个 不 同 的 最 左 推导 。 

证 明 ( 仅 当 ) 如 果 检 查 定 理 5.14 的 证 明 中 从 语法 分 析 树 构造 最 左 推导 的 过 程 ， 我 们 会 发 现 
只 要 两 棵 语法 分 析 树 中 有 一 个 (第 一 个 ) 下 面 这 样 的 节点 ， 在 该 节点 处 使 用 了 不 同 的 产生 式 ， 
那么 构造 的 最 左 推导 就 会 使 用 不 同 的 产生 式 ， 因 而 得 到 了 不 同 的 最 左 推导 

( 当 ) 虽然 前 面 并 没有 给 出 一 个 直接 从 最 左 推导 构造 语法 分 析 树 的 方法 ,但 是 它 的 思想 并 
不 难 。 首 先 从 根 市 点 开始 构造 语法 分 析 树 ， 并 把 根 节点 的 标号 设 为 9。 然 后 ， 每 次 检查 推导 中 
的 一 步 。 在 每 一 步 中 都 会 有 一 个 变 元 被 替换 ， 因 此 这 个 变 元 就 对 应 于 正在 被 构造 的 语法 分 析 树 
中 最 左边 的 没有 子 闻 点 但 是 标号 为 变 元 的 节点 。 由 最 左 推 导 中 这 一 步 所 使 用 的 产生 式 ， 可 以 决 
定 这 个 菠 所 的 子 市 氮 分 别 是 什么 。 如 果 有 两 个 不 同 的 推导 ， 那 么 在 这 两 个 推导 第 一 次 发 生 不 同 
的 地 方 ， 被 构造 的 市 点 将 会 得 到 不 同 的 子 节点 的 列表 ， 这 也 保证 了 所 构造 的 语法 分 析 树 是 不 
同 的 。 网 
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5.4.4 固有 的 歧义 性 


如 果 一 个 上 下 文 无关 的 语言 L 的 所 有 的 文法 都 是 歧义 的 ， 我 们 说 它 是 固有 歧义 的 。 只 要 L 有 
一 个 文法 是 无 歧义 的 ， 那 么 就 是 无 歧义 的 。 例 如 ， 我 们 说 图 5-2 中 的 文法 所 生成 的 表达 式 的 语 
0 即使 这 个 文法 是 上 几 义 的 ， 也 存在 另外 一 个 无 歧义 的 文法 和 它 生 成 同样 的 

语言 一 一 图 5-19 中 的 文法 。 

这 里 不 去 证 明 固 有 歧义 语言 ， 而 是 讨论 一 个 能 够 证 明 其 为 固有 歧义 的 语言 的 例子 ， 我 们 将 

会 直观 的 解释 为 什么 任何 这 种 语言 的 文法 都 是 歧义 的 。 这 个 将 要 讨论 的 语言 L 是 : 
L= {a'bc"d"|n 宇 1, m 宇 1}U{abre"drln>1,m>1} 

也 就 是 说 ，Z 包 含 所 有 满足 下 列 条件 的 arbrer d 形式 的 串 ; 

1.4 和 2 的 个 数 一 样 且 c 和 < 的 个 数 一 样 ， 或 者 

2.a 和 d 的 个 数 一 样 且 b 和 c 的 个 数 一 样 。 

L 是 上 下 文 无关 语 言 。 图 5-22 中 所 示 的 显然 是 L 的 一 个 文法 。 它 使 用 分 离 的 产生 式 的 集合 来 
产生 L 中 的 两 种 类 型 的 串 。 

这 个 文法 是 歧义 的 。 例 如 ， 串 aabbccdd 有 两 个 最 左 推导 : 

4 = AB=> aAbB > aabbB >aabbcBd > aabbccdd 








2 hp C > aCd gy aaDdd aabDcad > aabbccdad 


图 5-23 中 所 示 的 是 两 棵 语法 分 析 树 。 图 5-22 一 个 固有 歧义 
证 明 L 的 所 有 文法 都 一 定 是 歧义 的 过 程 是 很 复杂 的 。 然 而 ， 它 的 本 语言 的 文法 

质 如 下 。 我 们 需要 论证 几乎 是 有 限 个 数 的 其 中 a, b,c, a 的 个 数 相 同 的 串 都 一 定 用 下 面 两 种 不 同 的 

方法 生成 : 一 种 方法 是 a 和 4b 的 个 数 一 样 ，c 和 d 的 个 数 一 样 。 另 一 种 是 a 和 d 的 个 数 一 样 ，b 和 e 的 

个 数 一 样 。 


ce | 
Es 2 i 
xia Pa 
2 

SN 


a) b) 
图 5-23 aabbccdd 的 两 棵 语法 分 析 树 


例如 ， 生 成 4g 和 b 的 个 数 相 同 的 串 的 惟一 方法 是 使 用 类 似 于 图 5-22 中 的 文法 中 A 的 变 元 。 可 能 
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有 些 变化 ， 但 这 些 变化 并 不 改变 根本 的 东西 。 例 如 : 
。 可 以 避免 一 些 短 串 ， 例 如 ， 把 基本 的 产生 式 4 一 ab 换 为 A 一 aaabbb，。 
。 可 以 用 一 些 其 他 的 变 元 来 分 享 4 的 工作 ， 例 如 ， 通 过 使 用 变 元 41/ 和 A,，， 其 中 4 产生 奇数 个 a 
而 4z 产 生 偶数 个 ， 类 似 于 : A1 一 ah2b 1ab; As 一 aAhib。 
* 也 可 以 让 A 产生 的 a 和 4b 的 个 数 不 完 全 相等 ， 而 是 差 着 某 个 有 限 的 数 。 例 如 ， 可 以 从 一 个 产 
生 式 S 一 AbB 开 始 ， 然 后 用 A 一 aAb1a 来 生成 比 b 多 一 个 的 a 的 产生 式 ，。 
然而 ， 我 们 不 能 避免 某 些 生 成 在 某 种 程度 上 和 b 的 个 数 相 匹配 的 个 数 的 a 的 机 制 。 
同样 的 ， 我 们 可 以 论证 一 定 存在 一 个 类 似 于 B 的 变 元 ， 它 生成 匹配 个 数 的 c 和 d。 同样 ， 该 文 
法 中 也 一 定 有 类 似 于 C (生成 匹配 个 数 的 aq 和 d) 和 D (生成 匹配 个 数 的 ;和 c) 的 作用 的 变 元 。 形 
式 化 时 这 种 论证 能 够 证 明 不 管 我 们 对 基本 的 文法 做 怎样 的 修改 ， 它 都 能 像 图 5-22 中 的 文法 那样 
有 两 种 生成 至 少 几 个 arbrcrdr" 形 式 的 串 的 方法 。 


[a 
js 
上 


5.4.5 习题 


* 习题 5.4.1 考虑 下 面 的 文法 : 
Ss—aSlaSsbS|le 
这 个 文法 是 歧义 的 ， 试 证 明 串 aab 的 两 个 : 
a) 语法 分 析 树 。 
b) 最 左 推导 。 
¢) 最 右 推 叶 。 215 

! 习题 5.4.2 ”证 明 习 题 5.4.1 中 的 文法 恰恰 能 够 生成 且 只 能 生成 所 有 具有 满足 下 列 条 件 的 c 和 2 
串 : 该 串 的 任何 前 缀 中 4 的 个 数 至 少 要 和 2 的 个 数 一 样 多 。 

“1 习题 5.4.3 找到 一 个 习题 5.4.1 中 的 语言 的 无 歧义 的 文法 。 

! 习题 5.4.4 在 习题 5.4.1 的 文法 中 ， 有 些 c 和 8% 串 仅 有 一 棵 语法 分 析 树 。 试 给 出 一 个 有 效 的 测 
试 方法 来 判断 一 个 给 定 的 串 是 否 有 该 性 质 。 如 果 该 测试 “考虑 所 有 语法 分 析 树 来 看 产生 了 多 少 
给 定 的 串 "， 那 么 它 就 是 不 够 有 效 的 。 

! 习题 5.4.5 这 个 问题 和 习题 5.1.2 中 的 文法 有 关 ， 在 这 里 重新 写 一 遍 这 个 文法 ， 

一 41B 
A—0Ale 
B—0B|1Ble 
a) 证 明 这 个 文法 是 无 歧义 的 。 
b) 找到 一 个 生成 同样 语言 的 歧义 文法 ， 并 且 展 示 它 的 歧义 性 。 
“习题 5.4.6 习题 5.1.5 中 设计 的 文法 是 无 歧义 的 吗 ? 如 果 不 是 ， 把 它 改写 为 无 歧义 文法 。 
习题 5.4.7 下 面 的 文法 生成 的 是 具有 x 和 y 操 作 数 、 二 元 运算 符 +、 一 和 * 的 前 级 表达 式 : 
bE-=#EE tx EE SEENX|y 
a) 找到 串 +* -xyxy 的 最 左 推导 、 最 右 推导 和 一 棵 语法 分 析 树 。 
! b) 证 明 这 个 文法 是 无 歧义 的 。 
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“上 下 文 无 关 文 法 ; CFG 古 通过 使 用 称 为 产生 式 的 递归 规则 描述 语言 的 一 种 方法 。CFG 由 
一 个 变 元 集合 、 一 个 终结 符号 集合 、 一 个 初始 符号 和 一 个 产生 式 集合 构成 。 每 个 产生 式 
由 一 个 头 变 元 和 一 个 体 构成 ， 而 产生 式 的 体 是 由 零 个 或 多 个 变 元 或 终结 符号 组 成 的 串 构 
成 的 。 

。 推 导 和 语言 : 由 初始 符号 开始 ， 通 过 重复 将 某 个 变 元 替换 为 以 该 变 元 为 头 的 某 个 产生 式 的 
体 可 以 推导 出 终结 符 串 。CFG 的 语言 就 是 能 够 这 样 推导 出 来 的 终结 符 串 的 集合 ， 它 也 叫 作 

216 上 沾 文 无 绚 峭 言 。 Be 

。 最 左 推导 和 最 右 推 导 : 如 果 总 是 替换 串 中 最 左 (最 右 ) 的 变 元， 那么 这 种 推导 就 叫 作 最 左 
(最 右 ) 推导 。CEFG 的 语言 中 的 每 一 个 串 都 至 少 有 一 个 最 左 推导 和 一 个 最 右 推导 。 

* 名 型: 推导 过 程 中 的 任何 一 步 都 有 一 个 由 变 元 或 终结 符 组 成 的 串 ， 这 个 串 称 为 名 型。 如 果 
一 个 推导 是 最 左 (最 右 ) 的 ， 那 么 这 种 串 就 是 左 ( 右 ) 句 型。 

。 语 法 分 析 树 : 语法 分 析 树 是 一 棵 能 够 展示 推导 过 程 的 本 质 的 树 。 内 部 节点 都 用 变 元 来 标号 ， 
而 叶 市 扩 都 用 终结 符号 或 来 标号 。 对 于 每 一 个 内 部 节点 ， 一 定 存在 一 个 以 该 节点 的 标号 
为 头 ， 以 它 的 子 节 点 的 标号 从 左 到 右 连 接 起 来 为 体 的 产生 式 。 

。 语 法 分 析 树 和 推导 的 等 价 性 : 终结 符 串 属于 一 个 文法 的 语言 当 且 仅 当 它 是 至 少 一 棵 语法 分 
析 树 的 产物 。 因 而 ， 最 左 推 导 、 最 右 推导 和 语法 分 析 树 是 否 存在 都 是 判断 一 个 串 是 否 属于 
一 个 CFG 的 语言 的 等 价 条 件 。 

。 层 义 文法 : 对 于 某 个 CEFG， 有 可 能 找到 一 个 有 多 棵 语法 分 析 树 的 串 ， 或 者 等 价 地 找到 多 个 
最 左 推 导 或 最 右 推导 。 这 样 的 文法 就 是 歧义 的 。 

。 去 除 歧 义 性 : 对 于 很 多 有 用 的 文法 ， 比 如 用 来 描述 典型 的 编程 语言 中 的 程序 结构 的 文法 ， 
都 有 可 能 找到 一 个 无 歧义 的 文法 来 生成 和 它 同样 的 语言 。 不 幸 的 是 ， 一 个 语言 的 无 歧义 文 
法 往往 比 最 简单 的 歧义 文法 还 要 复杂 得 多 。 另 外 也 有 一 些 上 下 文 无 关 语 言 (一 般 来 说 大 多 
古 专 门 设 计 出 来 的 ) 是 固有 歧义 的 ， 也 就 意味 着 任何 该 语言 的 文法 都 是 歧义 的 。 

。 语 法 分 析 器 : 上 下 文 无 关 文法 是 对 于 编译 器 和 其 他 编程 语言 处 理 器 的 实现 很 关键 的 概念 。 
像 YACC 这 样 的 工具 以 CFG 作 为 输入 并 产生 一 个 语法 分 析 器 (推导 被 编译 程序 的 结构 的 部 
件 )。 

“文档 类 型 定义 : 正在 形成 的 XML 标准 是 用 来 在 Web 文 档 中 共享 信息 的 ， 它 使 用 了 一 种 符号 
记号 ， 叫 作 DTD。DTD 是 用 来 通过 文档 中 符 套 的 语义 标记 符 来 描述 这 种 文档 的 结构 的 。 

217 DTD 本 质 上 就 是 一 种 其 语言 是 一 类 相关 文档 的 上 下 文 无 关 文 法 。 


5.6 参考 文献 


上 下 文 无 关 文 法 是 由 Chomsky[4] 提 出 来 的 ， 本 来 是 计划 用 它 来 描述 自然 语言 的 。 不 久 以 后 
人 们 就 使 用 了 类 似 的 想法 来 描述 计算 机 语言 一 一 Backus (巴克 斯 ) [2] 的 Fortran 和 Naur (诺尔 ) 
[7] 的 Algol。 因 此 ，CFG 有 时 也 指 “ 巴 克 斯 -诺尔 型 文法 ”。 

文法 的 歧义 性 问题 是 几乎 同时 由 Cantor[3] 和 弗 洛 伊 德 Floyd[5] 指 出 的 。 固 有 歧义 性 是 由 
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第 6 章 下 推 目 动 机 


有 一 种 类 型 的 目 动机 能 够 定义 上 下 文 无 关 语 言 ， 这 种 自动 机 称 为 “下 推 自动 机 ”。 下 推 自动 
机 是 对 带 有 转移 的 非 确定 型 有 穷 自 动机 的 扩展 ， 而 后 者 提供 了 一 种 定义 正则 语言 的 方法 。 下 推 
目 动 机 实质 上 是 附加 了 一 个 堆栈 的 -NFA， 这 个 堆栈 只 能 在 栈 顶 进行 读 、 推 入 或 者 弹出 ， 就 像 一 
个 “堆栈 ”的 数据 结构 。 

本 章 将 会 定义 两 种 不 同 版 本 的 下 推 自 动机 : 一 种 像 有 穷 自动 机 一 样 靠 进 入 接受 状态 来 接受 ， 
另 一 种 靠 判 断 它 的 堆栈 是 否 为 空 来 接受 而 不 管 当 时 处 在 什么 状态 。 本 章 将 会 说 明 这 两 种 自动 机 
都 严格 接受 上 下 文 无 关 语 言 ， 也 就 是 说 ， 文 法 可 以 被 转化 为 等 价 的 下 推 自动 机 ， 反 之 亦 然 。 本 
章 还 会 简单 地 考虑 下 推 自动 机 的 确定 性 的 子 类 ， 它 们 能 够 接受 全 部 的 正则 语言 ， 但 只 是 CFL 的 
真子 集 。 因 为 它们 和 典型 的 编译 器 中 的 语法 分 析 器 的 结构 非常 类 似 ， 所 以 观察 那些 语言 结构 能 
锌 或 者 不 能 被 确定 性 的 下 推 自动 机 识别 是 非常 有 意义 的 。 


6.1 下 推 目 动机 的 定义 
在 本 节 中 首先 非 形 式 化 地 介绍 下 推 自动 机 ， 然 后 会 给 出 一 个 形式 化 的 定义 。 
6.1.1 非 形 式 化 的 介绍 


下 推 自动 机 实质 上 是 在 带 有 转移 的 非 确 定型 有 穷 自动 机 上 附加 了 一 个 额外 的 功能 :一 个 可 
以 用 来 存储 一 串 “ 堆 栈 符号 ”的 堆栈 。 存 在 一 个 堆栈 意味 着 下 推 自动 机 有 一 点 不 像 有 穷 自动 机 ， 
它 能 够 “ 记 住 ” 无 限量 的 信息 。 然 而 ， 它 也 不 像 一 个 通用 的 计算 机 一 样 能 够 记 住 任意 大 量 的 信 
息 ， 下 推 自动 机 只 能 用 后 进 先 出 的 方式 来 访问 位 于 它 的 堆栈 上 的 信息 。 

下 推 自 动机 和 通用 计算 机 的 区 别 的 结果 是 ， 存 在 一 些 语言 能 被 某 个 计算 机 程序 识别 ， 但 是 
不 能 被 任何 下 推 自动 机 识别 。 事 实 上 ， 下 推 自动 机 能 且 只 能 识别 全 部 的 上 下 文 无 关 语 言 。 虽 然 
有 很 多 语言 是 上 下 文 无 关 的 ， 包 括 我 们 已 经 见 过 的 不 是 正则 语言 的 那些 ， 但 是 也 确实 存在 一 些 
容易 描述 的 但 不 是 上 下 文 无 关 的 语言 ， 比 如 将 要 在 7.2 节 中 介绍 的 那些 。 一 个 非 上 下 文 无 关 语言 
的 例子 是 {0"1"2" 1n >1}， 这 个 串 的 集合 是 由 所 有 相同 个 
数 的 0. 1 和 2 的 “ 团 ”构成 的 。 

我 们 可 以 非 形 式 化 地 把 下 推 自 动机 看 作 图 6-1 中 的 装 输入 
置 。“ 有 穷 状态 控制 ”用 来 一 次 从 输入 读 入 一 个 符号 。 
下 推 自动 机 可 以 观察 栈 顶 的 符号 ， 然 后 基于 当前 状态 、 
输入 符号 和 栈 顶 符号 来 进行 转移 。 除 此 之 外 它 也 可 以 用 
e 来 代替 输入 符号 来 进行 “自发 地 ”转移 。 在 一 次 转移 
中 ， 下 推 自动 机 : 图 6-1 下 推 自动 机 实质 上 就 是 一 个 

1. 消耗 掉 在 转移 中 使 用 的 输入 符号 ， 如 果 输 入 为 带 有 堆栈 数据 结构 的 有 穷 自动 机 
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第 6 章 
则 不 消耗 输入 符号 。 


2. 转 到 一 个 新 的 状态 ， 新 状态 可 以 和 先前 的 状态 相同 ， 也 可 以 不 同 。 


3. 可 以 用 任何 串 来 替换 栈 顶 的 符号 。 这 个 串 可 以 是 z:， 这 对 应 于 从 堆栈 中 弹出 ， 也 可 以 就 是 
先前 的 栈 顶 出 现 的 符号 ， 即 没有 改变 堆栈 的 内 容 ， 也 可 以 用 一 个 其 他 的 符号 替换 栈 顶 的 
符号 ， 这 实际 上 改变 了 栈 顶 而 没有 对 栈 进行 推 入 或 弹出 操作 ， 最 后 ， 也 可 以 用 两 个 或 多 
个 符号 来 蔡 换 栈 顶 的 符号 ， 这 样 做 的 效果 就 是 首先 改变 栈 顶 的 符号 ， 然 后 再 向 栈 里 推 人 
226 一 个 或 多 个 新 的 符号 。 


例 6.1 考虑 语言 


Lmr= {ww lw 属于 (0+1)} 


这 个 语言 一 般 称 为 “w-w- 反 转 ”， 它 是 字母 表 {0, 1} 上 的 长 度 为 偶数 的 回 文 语言 ， 也 是 把 图 5-1 中 
的 文法 去 掉 产生 式 P 一 0 和 P 一 1 后 生成 的 CFL。 


我 们 可 以 非 形式 化 地 设计 一 个 接受 Lw 的 下 推 自动 机 ， 方 法 如 下 ® ， 


1. 从 状态 qo 开始 ， 处 于 这 个 状态 表示 “猜测 ”我 们 还 没有 到 达 中 间 ， 也 就 是 说 ， 还 没有 见 


到 串 w 的 末尾 ， 也 就 还 没有 开始 进入 wr 的 部 分 。 当 处 在 状态 qo 时 ， 读 入 符号 然后 把 它们 存 
入 堆栈 ， 具 体 的 方法 是 把 每 一 个 输入 符号 按 顺 序 推 信 堆栈 。 


2. 任何 时 刻 都 可 以 猜测 我 们 已 经 到 达 了 中 间 ， 也 就 是 说 ， 到 达 了 w 的 未 尾 。 这 时 ， 堆 栈 中 的 
正 古 w， 只 不 过 w 的 左 端 在 堆栈 的 底部 而 w 的 右 端 在 堆栈 的 顶部 。 此 时 通过 自发 地 转 到 状 


们 存在 堆栈 上 。 


态 q! 来 表示 这 个 选择 。 由 于 这 个 自动 机 是 非 确定 型 的 ， 所 以 实际 上 我 们 在 进行 两 个 猜测 : 
我 们 猜测 我 们 已 经 到 了 w 的 末尾 ， 而 我 们 同时 仍然 处 在 状态 go 并 且 继 续 读 入 输入 串 并 把 


人 


已 

3. 一 且 到 过 状态 944， 就 可 以 把 输入 符号 和 栈 顶 的 符号 做 比较 。 如 果 它 们 相同 ， 那 么 就 消耗 

醒 输 入 符号 、 弹 出 栈 顶 符号 并 且 继 续 比 较 。 如 果 它 们 不 相同 ， 那 么 我 们 就 猜 错 了 ,， 我 们 

猜测 的 w 后 面 并 没有 跟着 w*， 这 个 分 支 就 死 了 ,但 是 这 个 非 确定 型 自动 机 的 其 他 分 支 可 能 
还 活着 并 且 最 后 有 可 能 导致 接受 。 


4. 如 果 堆 栈 室 了 ， 那 么 实际 上 已 经 看 到 了 某 个 输入 w， 它 后 面 跟着 的 wa, 这 时 我 们 接受 从 开 
始 到 当前 点 所 读 入 的 串 。 


6.1.2 下 推 自 动机 的 形式 化 定义 


口 


下 推 自动 机 (Pushdown Automaton, PDA) 的 形式 化 定义 包括 七 部 分 。PDA 的 描述 如 下 ， 


P= (0) >; T0022,F) 
这 些 组 成 部 分 的 意义 如 下 : 


Q: 状态 的 有 穷 集合 ， 就 像 有 穷 自动 机 中 的 状态 。 


三 : 输入 符号 的 有 穷 集合 ， 它 也 和 有 穷 自动 机 中 对 应 的 部 分 很 类 似 。 


曲 ”我们 也 可 以 为 图 5-1 中 出 现 的 文法 对 应 的 语言 pa 设计 一 个 自动 机 。 但 是 Lww 要 比 它 简单 一 些 ， 因 此 可 以 让 我 们 
更 加 着 眼 于 下 推 自动 机 的 重要 思想 。 


ov 


有限 的 堆栈 字母 表 。 在 有 穷 自动 机 中 没有 和 这 个 部 分 类 似 的 部 分 ,该 部 分 古 能 够 被 推 入 
堆栈 的 符号 的 集合 。 

6: 转移 函数 。 和 有 穷 自 动机 中 的 转移 函数 类 似 ，6 控 制 着 自动 机 的 行为 。 形 式 上 ，6 的 目 变 
量 为 一 个 三 元 组 (gq,a,;X)， 其 中 : 
1) 4 是 C 中 的 状态 。 
2) a 或 者 是 中 的 输入 符号 ， 或 者 是 空 串 e， 假定 e 不 是 输入 符号 。 
3) X 是 堆栈 符号 ， 也 就 是 中 的 成 员 。 
6 的 输出 是 序 对 (p, y) 的 有 穷 集合 ， 其 中 p 是 新 状态 ，y 是 堆栈 符号 串 ，y 是 用 来 代 赫 栈 顶 符 
号 的 。 例 如 ， 如 果 y = ze， 那么 栈 顶 元 素 弹出 ， 如 果 y = 和 ， 那 么 堆栈 设 有 改变 ， 如 果 7 = 
YZ， 那 么 X 被 Zz 代替， 然后 7 被 推 入 堆栈 中 。 

qo: 初始 状态 。 在 做 任何 转移 之 前 ，PDA 处 于 这 个 状态 。 

Zo: 初始 符号 。 开 始 时 ，PDA 的 堆栈 中 包含 一 个 这 个 符号 的 一 个 实例 ， 除 此 之 外 就 没有 别 
的 符号 了 。 

下 ; 接受 状态 (或 终结 状态 ) 的 集合 。 


不 要 “混合 与 匹配 - 


PDA 在 有 些 情况 下 可 以 选择 多 个 序 对 之 一 。 例 如 ， 假 设 6 (q,a,X) = {(p, 7ZD),(r,s}。 那 
么 当 该 PDA 移 动 一 步 时 ， 我 们 要 从 所 有 可 能 的 序 对 中 选 出 一 个 ， 我 们 不 能 从 一 个 序 对 中 选 


出 状态 而 同时 从 另 一 个 序 对 中 选 出 替代 栈 顶 的 串 。 因 此 ， 如 果 当 前 在 状态 9， 栈 顶 符号 为 X， 
输入 为 4， 那 么 可 以 转 到 状态 p， 同 时 用 YZ 来 代替 XxX， 也 可 以 转 到 状态 r 同 时 弹出 X。 但 是 ， 
不 能 转 到 状态 p 同 时 弹出 X， 也 不 能 转 到 状态 r 同 时 用 了 YZ 来 代替 X。 





例 6.2 设计 一 个 接受 例 6.1 中 的 语言 Lww 的 下 推 自动 机 P。 首 先 ， 在 上 一 个 例子 中 有 一 些 细 
市 并 没有 给 出 ， 而 为 了 理解 怎样 才能 正确 地 管理 堆栈 需要 这 些 细节 。 我 们 将 会 使 用 一 个 堆栈 符 
号 Zo 来 标记 栈 底 ， 需 要 这 个 符号 是 因为 在 从 堆栈 中 把 w 全 部 弹出 并 知道 输入 串 是 符合 wws 的 形式 
的 之 后 ， 我 们 仍然 需要 堆栈 中 有 东西 可 以 使 我 们 转移 到 接受 状态 9;。 因 此 ，Lwi 的 PDA 可 以 描 
述 为 : 
P= ({go,q1, q2}, {0, 1}, {0, 1, 20}, 6, qo, Zo, {q92}) 
其 中 6 是 由 下 面 的 规则 定义 的 
1. 0(go, 0, 20) = {(qo, 02Z0)}，6(qo, 1, Zo) ={(qo, 1Zo0)}。 在 开始 时 ， 当 处 在 状态 go， 并 且 栈 顶 符 
号 为 初始 符号 Zo 时 就 要 应 用 上 面 两 条 规则 中 的 一 条 。 我 们 读 入 第 一 个 输入 符号 ， 然 后 把 
它 推 和 人 堆栈 中 ， 以 后 都 用 Z 来 标记 栈 底 。 
2. 0(9o,0,0) = {(go, 00)}, 6(gqo, 0, 1) = {(qo, 01)}, 6(qo, 1,0) = {(qo, 10)}, 6(qo, 1, 1) = {(qo, 11)}。 
这 四 条 很 相似 的 规则 能 够 让 我 们 一 直 处 在 状态 qo 并 读 入 输入 ， 接 着 不 管 当 前 的 栈 顶 符号 
是 什么 都 把 输入 符号 推 入 堆栈 。 
3. 0(qo, £, 20) ={(q1, 20)} ,6(qo, 2,0) ={(q1,0)}，6(qo, ,1) ={(q1, 1)}。 这 三 条 规则 允许 P 自 发 地 
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(输入 为 e) 从 状态 qo 转 到 状态 q1+， 同 时 无 论 栈 顶 符号 是 什么 都 保持 栈 顶 符号 不 变 。 

4. (qi, 0, 0) ={(qi, 2)}，0(qi, 1, 1) ={(qi, 2)}。 现 在 ， 在 状态 qt 时 可 以 比较 输入 符号 和 栈 顶 符 
号 ， 如 有 它们 相同 则 弹出 栈 项 符号 。 

5. (qi, 8 200) ={(4qz, 0)}。 了 最 后 ， 如 采 露 出 了 栈 底 标 记 Zo 并 且 处 在 状态 9 那么 就 已 经 找到 了 
ww 形式 的 输入 串 ， 就 转 到 状态 4 并 接受 。 本 


6.1.3 PDA 的 图 形 表 示 


像 例 6.2 中 那样 列 出 6 的 行为 并 不 总 是 很 容易 理解 的 。 有 时 用 一 张 图 ; 就 像 推 广 了 的 有 究 自 动 
机 的 转移 图 一 样 ， 能 够 让 一 个 给 定 的 PDA 的 行为 的 各 个 方面 更 加 清楚 。 因 此 本 节 将 要 介绍 后 面 
会 用 到 的 PDA 的 转移 图 ， 在 转移 图 中 : 


a) 廊 尽 对 应 于 PDA 的 状态 。 
b) 一 个 标号 为 Start 的 箭头 指出 初始 状态 ， 双 圈 表 示 的 状态 是 接受 状态 ， 这 些 和 有 穷 自 动机 
中 的 相同 。 


c) 用 家 弧 来 对 应 PDA 的 转移 ， 具 体 表示 方法 如 下 : 一 个 从 状态 q 到 状态 p 的 标号 为 a, X/a 的 弧 
表示 64, a, X) 包 含 序 对 (p, a)， 可 能 还 有 其 他 的 序 对 。 也 就 是 说 ， 弧 的 标号 表示 使 用 的 输 
入 符号 并 给 出 旧 的 栈 顶 和 新 的 栈 顶 。 

008 宙 给 ZZ6 
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0,0/00 

0,1/01 

F330 /iQ 0,0/e 

1 ,> Lk ju 


和 
A | 


图 6-2 用 推广 的 转移 图 来 表示 PDA 


这 个 转移 图 惟一 没有 告诉 我 们 的 事情 是 哪个 堆栈 符号 是 初始 符号 。 按 照 习惯 ， 如 果 不 另外 
指出 都 用 Do。 


例 6.3 例 6.2 中 的 PDA 可 以 用 图 6-2 中 的 转移 图 来 表示 。 口 
6.1.4 PDA 的 瞬时 描述 


到 现在 为 止 ， 对 于 PDA 是 怎样 “计算 ”的 还 只 有 一 个 非 形式 化 的 概念 。 直 观 上 ，PDA 通 过 
对 输入 符号 (或 者 有 时 是 e) 作出 反应 来 从 一 个 配置 转 到 另 一 个 配置 。 但 是 和 有 穷 自动 机 不 同 的 
旦 ，PDA 的 配置 不 仅仅 包括 它 的 状态 ， 还 包括 它 的 堆栈 的 内 容 ， 而 在 有 穷 自动 机 中 关于 自动 机 
惟一 需要 知道 的 就 是 状态 。 堆 栈 容量 是 可 以 任意 大 的 ， 因 此 在 任何 时 候 堆栈 都 是 一 个 对 PDA 的 
整个 配置 来 说 比较 重要 的 部 分 。 把 剩余 的 (还 未 读 入 的 ) 输入 串 也 表示 为 PDA 的 配置 的 一 部 分 


eS 


往往 也 很 是 有 用 的 。 

因此 ， 应 该 用 三 元 组 〈q, w, Y) 来 表示 PDA 的 配置 ， 其 中 

1.4 是 状态 。 

2.% 是 剩余 的 输入 串 。 

3. ;是 堆栈 的 内 容 。 
习惯 上 ， 把 栈 顶 放 在 Y 的 左 端 ， 栈 底 放 在 它 的 右 端 。 这 样 的 一 个 三 元 组 被 称 为 下 推 自动 机 的 一 个 
上 济 时 描述 (instantaneous description, ID ) 。 

对 于 有 穷 自 动机 来 说 ， 在 它 的 移动 过 程 中 用 符号 6 来 表示 瞬时 描述 的 序列 就 已 经 足够 了 ， 
原因 是 有 穷 目 动机 的 ID 只 包括 它 的 状态 。 然 而 ， 对 PDA 来 说 我 们 需要 能 够 表示 状态 、 输 入 和 堆 
栈 的 改变 。 因 此 ， 我 们 采用 “turnstile” 表 示 法 来 连接 一 对 对 的 ID， 这 种 表示 法 能 够 表示 PDA 的 
一 步 或 多 步 移动 。 

令 P=(Q, 2, 攻 , 6,qo, Zo, 卫 ) 是 一 个 PDA。 定义 上 《如 果 忆 是 已 知 的 ,那么 也 可 以 仅仅 用 上 来 
表示 ) 为 : 假设 6q,a, 习 包含 ,om， 那 么 对 于 所 有 2* 中 的 串 w 和 "中 的 串 b 都 有 : 

(gq,aw, XP) 上 ,wa 有 
这 一 步 移动 反映 了 下 面 的 想法 : 通过 从 输入 中 消耗 (也 可 能 是 s) 并 且 用 co 来 替换 栈 顶 的 X， 可 
以 从 状态 4 转 到 状态 pp。 注意， 剩余 的 输入 w 和 栈 顶 以 下 的 内 容 B 并 不 影响 PDA 的 动作 ， 它 们 保持 
不 变 ， 并 且 有 可 能 影响 以 后 将 要 发 生 的 事件 。 

同样 ， 我 们 也 使 用 符号 片 〈 或 者 当 PDA P 已 知 的 时 候 使 用 上 ) 来 表示 PDA 的 零 步 或 多 步 移 
动 ， 也 就 是 : 

基础 : 对 于 任何 ID 也 都 有 7 上 7。 

归纳 : 如 果 存 在 某 个 ID 天 满足 7Z 上 天 和 开 上 JJ， 那么 就 有 7 上 v。 

也 就 是 说 ， 如 果 存 在 ID 的 序列 KI1，K,，…，K 满 足 1 = K1，J = K, ， 并 且 对 于 所 有 的 ; = 1， 
2 1 Rey, 那么 就 有 1 Ey 


例 6.4 考虑 例 6.2 中 PDA 在 输入 为 1111 时 的 动作 。 由 于 qo 是 初始 状态 ,Zo 是 初始 符号 ， 因 此 
初始 ID 是 (go 1111, Zo)。 在 这 个 输入 下 ， 该 PDA 有 猜 错 多 次 的 机 会 。 图 6-3 中 给 出 的 是 PDA 从 初始 
ID(qo, 1111, Zo) 能 到 达 的 整个 ID 序列 。 箭 头 代表 关系 上 。 

从 初始 ID 开始 ， 有 两 个 可 选 的 移动 。 第 一 个 猜测 还 没 到 中 间 因 此 导致 ID(qu, 111, 1Zo)。 实 际 
上 是 从 输入 中 去 掉 一 个 1 并 且 把 它 推 入 堆栈 。 

从 初始 ID 开始 的 第 二 个 选择 是 猜测 已 经 到 达 了 输入 串 的 中 间 ， 因 此 不 消耗 输入 ，PDA 转 到 
状态 9,， 因 而 导致 ID (qi1, 1111, Zo)。 由 于 当 处 在 状态 qi 并 且 栈 顶 是 Zo 时 PDA 可 能 会 接受 ， 因 此 该 
PDA 接 着 到 达 ID (gq;, 1111, Zo)。 这 个 ID 实际 上 并 不 是 一 个 接受 ID, 因为 输入 串 还 没有 完全 被 消耗 。 
如 果 输 入 不 是 1111 而 是 se 的 话 ， 这 个 移动 序列 会 导致 ID (qi, s, Zo)， 这 也 意味 着 a 被 接受 。 

该 PDA 也 可 以 在 读 入 一 个 1 后 ， 也 就 是 说 ， 当 它 处 在 ID (q, 111, 1Zoj 时 ， 猜 测 它 已 经 到 达 了 
中 间 。 这 个 猜测 同样 会 失败 ， 因 为 整个 输入 没有 被 完全 消耗 。 惟 一 正确 的 猜测 是 当 读 入 两 个 1 后 
到 达 中 间 ， 这 个 猜测 能 够 给 出 有 D 的 序列 (qo, 1111, Zo) 上 (go, 111, 1Zo) F (go, 11, 1126) 上 (qi, 11, 
11Zo) 上 (qi, 1, 1Zo) 上 (qi, se, 20) | (q2, 2, 20). | 口 
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图 6-3 例 6.2 中 的 PDA 在 输入 为 1111 时 的 ID 

有 三 条 关于 D 和 它们 之 间 的 转移 的 重要 原则 对 于 我 们 讨论 PDA 的 性 质 是 非常 有 用 的 . 

1. 如 果 对 于 一 个 PDA P 来 说 ， 一 个 ID 的 序列 (计算 ) 是 合法 的 ， 那 么 在 把 一 个 同样 的 串 加 
到 该 序列 中 所 有 ID 的 输入 串 的 末尾 (第 二 个 部 分 ) 后 所 得 到 的 计算 也 同样 是 合法 的 - 

2. 如 采 对 于 一 个 PDA P 来 说 ， 一 个 计算 是 合法 的 ， 那 么 在 把 一 些 同 样 的 堆栈 符号 加 到 该 序 
列 中 所 有 ID 的 堆栈 的 底部 后 所 得 到 的 计算 也 同样 是 合法 的 。 

3. 如 果 对 于 二 个 PDA P 来 说 ,一 个 计算 是 合法 的 ， 并且 输 入 捉 的 尾部 还 有 未 被 消耗 的 部 
分 ， 那 么 可 以 从 该 序列 中 所 有 ID 的 输入 中 去 掉 这 个 旦 部 ,这样 所 得 到 的 计算 也 同样 是 合 
法 的 。 

直观 地 看 ,，P 从 来 都 “看 不 到 ”的 数据 不 会 影响 它 的 计算 。 我 们 用 一 个 定理 来 形式 化 (1) 和 

(2) 两 点 。 


定理 6.5 如 果 P = (Q，Z, 了 T, 6, qo, Zo, 下) 是 一 个 PDA， 并 且 (q,x, @) 上 o,y B)， 那 么 对 于 所 
有 2* 中 的 串 w 和 厂 中 的 串 y 都 有 
(gq, xw, op) FB (p, yw, BY) 
注意 ， 如 果 Y= s， 那 么 就 得 到 原则 (1 的 形式 化 命题 ， 如 果 w = s， 那 么 得 到 的 就 是 第 二 个 原则 ， 
证 明 该 证 明 实际 上 是 对 从 ID(q, xw, 0) 到 (p; yw, B) 的 ID 序列 的 步 数 的 一 个 非常 简单 的 归纳 。 
序列 (9, x, 0@) 皮 (p;y, B) 中 的 每 一 步 移动 都 能 通过 没有 使 用 w 和 y 的 P 的 转移 来 验证 。 因 此 ， 当 把 w 
和 ?分别 加 入 输入 的 末尾 和 栈 底 后 该 序列 中 的 每 一 步 移 动 依然 是 正确 的 。 口 
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PDA 的 习惯 记号 
我 们 仍然 继续 使 用 为 有 穷 自动 机 和 文法 介绍 的 习惯 的 符号 用 法 。 在 继续 使 用 这 些 记号 的 过 
程 中 ， 我 们 应 该 认识 到 堆栈 符号 其 实 是 和 CFG 中 的 终结 符 集 和 变 元 集 的 并 集 很 类 似 的 。 因 此 : 
1. 输入 字母 表 中 的 符号 用 字母 表 中 开头 的 几 个 小 写字 母 (如 a、b 等 ) 来 表示 。 


2. 状态 一 般 用 g 和 和 p 或 字母 表 中 与 它们 接近 的 几 个 字母 来 表示 。 

3. 输入 符号 串 用 字母 表 中 结尾 的 几 个 小 写字 母 (如 w 或 z) 来 表示 。 
4. 堆栈 符号 用 字母 表 中 结尾 的 几 个 大 写字 母 (如 X 或 Y) 来 表示 。 
5. 堆栈 符号 串 用 小 写 的 希腊 字母 (如 ax 或 y) 来 表示 。 





顺便 提 一 下 ,这 个 定理 的 逆 命题 并 不 成 立 。 原 因 是 PDA 可 以 通过 把 y 中 的 一 些 符号 弹出 堆栈 ， 
然后 再 重新 把 它们 放 回 堆栈 的 方法 来 做 一 些 事情 ， 但 是 当 该 PDA 看 不 到 y 时 就 无 法 完成 这 些 事情 
本。 不 过 ， 就 像 原 则 (3) 中 所 说 的 那样 ， 可 以 去 掉 没 有 使 用 的 输入 部 分 ， 原 因 是 PDA 不 可 能 在 消 
耗 掉 输入 符号 后 再 把 它们 放 回 到 输入 中 去 。 因 此 可 以 这 样 形式 化 地 叙述 原则 (3): 


定理 6.6 如 果 P = (C， 卫 ,也 6, qo, Do, 也 是 一 个 PDA， 并且 (gq, xw,; on 片 ,yw,B)， 那 么 就 有 
(gx,00) FB (pn,y, BA). 口 


有 穷 自 动机 的 ID? 


有 人 可 能 会 疑惑 为 什么 不 像 PDA 中 的 ID 一 样 给 有 穷 自动 机 也 引入 一 种 类 似 的 记号 表 
未 。 虽 然 FA 没 有 堆栈 ， 但 是 仍然 可 以 使 用 序 对 (9, w) 来 作为 有 穷 自动 机 的 ID ， 其 中 4 表示 状 
态 ，Y 表 示 剩 余 的 输入 串 。 


虽然 可 以 这 么 做 ， 但 是 我 们 无 法 通过 这 样 做 得 到 比 6 记号 所 能 得 到 的 更 多 的 关于 ID 
之 间 可 达 性 的 信息 。 也 就 是 说 ， 对 于 任何 一 个 有 穷 自动 机 ， 可 以 证 明 ， 对 于 所 有 的 串 x， 6 
(9, w) = p 当 且 仅 当 (g, wx) 上 (p, x)。x 可 以 是 我 们 希望 的 任何 串 ， 它 不 会 影响 到 FA 的 行为 ， 
这 一 事实 是 和 定理 6.5 和 定理 6.6 类 似 的 定理 。 


6.1.5 习题 


习题 6.1.1 假设 PDA P=({9,p}, {0,1},{2o,X}, 6,g,2,{p) 具 有 下 列 转移 函数 : 
1. gq, 0, 20) = {(q, X20)}.。 

2. 09,0,X = {(g, XX)}.。 

3.0(g, 1,X) = {(gq, X)}。 

4. (gq, , X) = {(p, )}。 

5. 0(p, e, X) = {(p, 2)}。 

6. 0(p, 1,X) = {(p, XX)}。 

7.0(p, 1, 20) = {(p, 2)}。 





2 


二 
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那么 从 初始 ID (q,w, Zo) 开 始 ， 给 出 当 输入 串 w 为 下 面 的 串 时 所 有 可 达 的 ID: 
* a) 01, 

b) 0011 。 

c)010。 


6.2 PDA 的 语言 


前 面 假定 PDA 通 过 消耗 输入 并 且 进 入 接受 状态 来 接受 它 的 输入 串 。 这 种 接受 的 方法 称 为 
以 终结 状态 方式 接受 "。 除 此 以 外 还 有 第 二 种 定义 PDA 的 语言 的 方法 ， 这 种 方法 同样 也 有 很 重 
要 的 应 用 。 我 们 可 以 通过 “以 空 栈 方式 接受 ”来 定义 PDA 的 语言 ， 也 就 是 说 ， 该 PDA 的 语言 
所 有 从 初始 ID 开始 能 够 最 终 导致 该 PDA 的 堆栈 排 空 的 串 构成 。 

这 两 种 方法 是 等 价 的 ， 因 为 对 一 个 语言 L 来 说 ， 存 在 一 个 PDA 以 终结 状态 方式 接受 L 当 上 且 仅 
当 和 存在 一 个 PDA 以 空 栈 方 式 接受 L。 然 而 ， 对 于 一 个 给 定 的 PDA P，P 能 够 以 终结 状态 方式 接受 
的 语言 跟 P 能 够 以 空 栈 方式 接受 的 语言 往往 是 不 同 的 。 在 本 节 中 将 会 展示 怎样 把 一 个 以 终结 状态 
方式 接受 L 的 PDA 转 换 为 男 一 个 以 空 栈 方式 接受 L 的 PDA， 反 之 亦 然 。 


6.2.1 以 终结 状态 方式 接受 


设 P =(Q,>,T, 6, qo, 26, 耻 ) 是 一 个 PDA， 那 么 P 以 终结 状态 方式 接受 的 语言 L(P) 是 : 
{w | (go, w, 20) 瞩 (0 &, 0)} 
其 中 9 是 F 中 的 某 个 状态 ，o 是 任何 堆栈 符号 串 。 也 就 是 说 ,， 从 以 w 为 等 待 输入 的 串 的 初始 ID 出 发 ， 
2 消耗 了 输入 的 w 并 且 进 入 了 接受 状态 。 在 那 一 时 刻 堆栈 中 的 内 容 无 关 。 


例 6.7 ”在 前 面 说 过 例 6.2 中 的 PDA 接 受 语言 上 ww， 也 就 是 所 有 形式 为 ww 的 {0，17* 中 的 串 构 
成 的 语言 ， 现 在 来 看 看 这 个 结论 为 什么 成 立 。 这 个 证 明 是 一 个 当 且 仅 当 命题 ; 例 6.2 中 的 PDA P 
能 以 终结 状态 方式 接受 串 x 当 且 仅 当 x* 是 ww 形式 的 。 

( 当 ) 这 部 分 证 明 比 较 容 易 ， 只 需要 证 明 P 的 接受 计算 过 程 。 如 果 x = wwRg， 那 么 有 

(qo, ww®, 20) FP ( qo, we, weZo) |- ( qi, we, wRZo) (gi, e, 20) | (gq, 8, 20) 
也 就 是 说 ,该 PDA 的 一 个 选择 就 是 从 输入 中 读 入 w 并 把 它 按 逆序 放 到 堆栈 中 ， 接 着 自发 地 转 到 状 
态 q!， 然 后 用 站 上 的 串 来 和 输入 中 相同 的 串 w 匹配 ， 最 后 自发 地 转 到 状态 gq;。 

( 仅 当 ) 这 部 分 证 明 相对 较 难 。 首 先 ， 通 过 观察 可 以 发 现 进入 接受 状态 q; 的 惟一 的 途径 是 处 
在 q! 时 栈 顶 为 6。 还 有 ，P 的 任何 接受 计算 一 定 是 从 go 开始 ， 仅 转移 一 次 到 gq， 并且 在 此 之 后 永 
远 不 会 回 到 go。 因此， 找到 满足 ( go, x, Do) 上 (av se, Do) 的 x 满 足 的 条 件 就 足够 了 ， 而 这 些 条 件 恰 好 
是 PC 以 终结 状态 方式 接受 的 串 +。 下 面 将 通过 对 xl 进 行 归纳 来 证 明 一 个 更 加 一 般 的 命题 ， 


。 如 果 有 (go,x, 0) 上 (au es, 0)， 那 么 x 一 定 是 wr 形式 的 。 


基础 : 如 果 x = e， 那 么 x 就 已 经 是 ww* 形式 的 了 (其 中 w = s) ， 因 而 结论 成 立 。 注 意 并 不 需 
要 证 明 有 (qo, s, o) 上 (at s, 0) 成 立 ， 虽然 它 确实 成 立 。 


wo 


归纳 : 假设 x = aa…a， 其 中 由 >0。 从 ID(gux, ao 出 发 ，P 有 两 种 选择 : 
1. (qo, x, 0) 上 (q1, x, c )， 当 P 处 在 状态 qt 时 它 只 可 以 从 堆栈 中 弹出 符号 ,而且 必须 弹出 它 读 
到 的 符号 ， 并 且 已 知 xt>0。 因 此 ， 如 果 (qi, x, @) 上 (9 e, B)， 那 么 8 一 定 比 o 短 而 且 不 等 
二 
2. (qo, ali0…an，oD 上 (go 42…an ,a10), 如 果 一 个 动作 序列 的 最 后 一 步 移动 是 从 栈 中 弹出 的 话 ， 
那么 这 个 移动 序列 能 以 (qi, s, o) 结 束 的 惟一 方式 是 : 
(qi, an, a10) 上 (qi, s, 0) 
而 在 这 种 情况 下 ， 一定 有 a1 = an。 并 且 已 知 
(qo, aa2…an, 4a10) (qi, an a10) 
根据 定理 6.6 可 知 ， 由 于 符号 a 并 没有 被 使 用 ， 因 此 可 以 把 它 从 输入 串 的 末尾 去 掉 。 因 此 ， 
(qo, a2°"*an_1, a10) 上 (qi ,a10) 
因为 这 个 移动 序列 的 输入 串 的 长 度 小 于 n， 因 此 可 以 对 它 使 用 归纳 假设 而 得 出 结论 : a2… 
Qan-! 一 定 是 yy 形式 的 ， 其 中 y 是 某 个 串 。 因 为 x = aiyy*an,， 并 且 已 知 a1 = wm， 所 以 可 以 得 出 
最 终 的 结论 : x 是 ww* 形 式 ， 其 中 w= ary。 
对 于 证 明 惟 一 接受 x 的 途径 为 x 必须 满足 ww 形式 来 说 ， 上 面 给 出 了 关键 的 部 分 。 因 此 ， 我 们 
完成 了 整个 证 明 的 “ 仅 当 ”部 分 ;跟前 面 已 经 完成 的 “充分 性 ”部 分 合 起 来 就 得 到 了 完整 的 结 
论 : P 恰 好 接受 Dw 中 的 串 。 日 


6.2.2 以 空 栈 方式 接受 
对 于 一 个 PDA P=(0,， 了 .也 04qgo2, 及 ， 我 位 定 义 
N(P) oe {w | (qo, w, 20) (gq, 2， E)} 
其 中 g 是 任何 状态 。 也 就 是 说 ，N(P) 是 能 让 P 消 耗 完 的 同时 堆栈 为 空 的 输入 串 w 的 集合 。” 
例 6.8 ” 例 6.2 中 的 PDA P 的 堆栈 从 来 就 不 会 变 空 ， 因 此 N(P) = 如。 然而 ， 可 以 通过 对 P 进 行 
很 小 的 修改 使 它 能 够 以 空 栈 方式 和 终止 状态 方式 接受 Lww 一 一 只 要 用 6(q1, s, Zo) ={(q2, 2)} 来 代替 


0(qi, E, 20) ={(q2, 20)} 即 可 。 这 样 ，P 通 过 弹出 堆栈 中 最 后 一 个 符号 来 接受 输入 串 ， 此 时 L(P) = 
WOUD = Ln, 口 


因为 接受 状态 的 集合 是 不 相关 的 ， 因 此 ， 如 果 我 们 只 关心 P 通 过 空 栈 方 式 接受 的 语言 ， 则 
可 以 去 掉 PDA P 的 描述 中 的 最 后 一 个 (第 7 个 ) 分 量 。 因 此 ， 可 以 把 P 写 做 一 个 六 元 组 (0O，53, 工 
0, qo , 20)。 


6.2.3” 从 空 栈 方式 到 终结 状态 方式 


我 们 将 要 证 明和 所 有 的 PDA P 所 对 应 的 LP) 所 组 成 的 语言 类 和 所 有 的 PDA P 所 对 应 的 N(P) 所 
组 成 的 语言 类 是 相同 的 ， 并 且 这 个 类 恰好 也 就 是 在 6.3 节 中 所 介绍 的 上 下 文 无 关 语 言 。 下 面 的 第 


唱 NOP) 中 的 N 代 表 “null stack”， 是 空 本 (“empty stack”) 的 同义词 。 
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一 个 构造 方法 说 明 怎 样 在 已 有 的 一 个 以 空 栈 方 式 接受 语言 5 的 PDA Pw 的 基础 上 构造 一 个 以 接受 
状态 方式 接受 L 的 PDA Pr。 


定理 6.9 如 果 对 于 PDA Pw = (C, 2,T, 6w ,qo , Zo) 来 说 有 上 = N(Pn)， 那 么 存在 一 个 PDA Pr 
使 得 L = L(Pr)。 

证 明 ”该 证 明 背 后 的 思想 如 图 6-4 所 示 。 我 们 使 用 一 个 新 的 不 在 I 中 的 符号 Xo0， 它 既是 Pr 的 
初始 符号 ， 也 是 一 个 放 在 栈 底 能 让 我 们 知道 Pw 的 堆栈 已 经 空 了 的 标记 。 也 就 是 说 ， 如 果 Pr 在 它 
的 栈 顶 看 到 Xo， 那 么 它 就 知道 Pw 在 同样 的 输入 串 上 它 的 堆栈 会 为 空 。 


£, XO0/E 





5, Xo /E 
图 6-4 Pr 能 够 模拟 Pw， 并且 当 Py 的 堆栈 为 空 时 接受 输入 串 
我 们 还 需要 一 个 新 的 初始 状态 pps， 它 惟一 的 作用 就 是 把 Z。( 也 就 是 PR 的 初始 符号 ) 压 入 堆 





栈 中 ， 然 后 进入 状态 qo。 (Pn 的 初始 状态 )。 在 此 之 后 ，Pr: 模 拟 Pv， 直 到 Pw 的 堆栈 为 空 一 PP 能 够 
检测 出 这 个 事实 ， 原 因 是 这 时 的 栈 顶 符号 会 是 Xo。 最 后 ， 我 们 需要 另外 一 个 新 的 状态 p; ， 它 是 Pr 
的 接受 状态 ， 当 发 现 Pw 的 堆栈 会 变 为 空 时 Pr 就 转移 到 接受 状态 pi。 
因此 Pr 的 描述 如 下 : 
Pr = (QU {po,pr}, 2,TU{Xo},Or po , Xo, {pr}) 
其 中 6 的 定义 是 : 
1. or (po, E, Xo) = {(qo, ZoXo)}。 当 Pz 在 初始 状态 时 ， 它 会 自发 地 转移 到 Pw 的 初始 状态 ， 把 它 
的 初始 符号 媚 压 入 到 堆栈 中 。 
2. 对 于 Q 中 的 所 有 的 状态 9、2 中 的 输入 符号 a 或 者 a = e 以 及 I 中 的 堆栈 符号 7Y，6 (q, a, 站 包 
含 6n(q,a, 了 让) 中 的 所 有 序 对 。 
3. 对 规则 (2) 做 一 些 补充 : 对 于 Q 中 的 每 个 状态 gq， 6r(q, 5,Xo) 包 含 (pr, 5)。 
我 们 必须 要 证 明 : w 属 于 ZCPn 当 且 仅 当 w 属 于 NMCPNm。 
( 当 ) 已 知 对 于 某 个 状态 gq 有 (go, w, Zo) 睛 ，(g, s, 6)。 定 理 6.5 允 许 在 栈 底 插入 并 且 能 够 得 到 
(qo, w, ZoXo) 芒 ,(q, E, Xo)。 因 为 根据 规则 (2)，P# 拥有 Pw 所 有 的 移动 ， 所 以 可 以 得 出 结论 (qo, w， 
ZoXo) 睛 (9, ,Xo)。 如 果 把 这 个 移动 序列 和 规则 (1) 和 (3) 中 给 出 的 初始 移动 和 最 终 移动 结合 起 来 ， 
就 可 以 得 到 : 
(po, w, Xo) Fs, (qo, w, ZoXo) 片 (q, es Xo) b, (ps, 2, 2) (6-1) 


aoc 


因此 ，Pr 以 终止 方式 接受 w。( 仅 当 ) 只 要 我 们 能 够 注意 到 规则 (0) 和 (3) 提 供 的 附加 转移 能 够 把 以 
接受 状态 方式 接受 w 的 方式 限制 得 很 “ 死 "， 就 能 得 出 反方 向 的 结论 。 我 们 必须 在 最 后 一 步 使 用 
规则 (3)， 并 且 当 Pi 的 堆栈 中 只 有 时 我 们 只 能 够 使 用 这 条 规则 。 除 了 栈 底 ， 不 会 出 现在 堆栈 
中 的 其 他 位 置 。 而 且 ， 规 则 (1) 只 能 在 第 一 步 使 用 而且 第 一 步 必须 使 用 这 条 规则 。 

因此 ， 接 受 w 的 Pr 的 整个 计算 一 定 像 (6-1) 中 的 序列 那样 。 此 外 ， 这 个 计算 的 中 间 部 分 ( 除 
了 第 一 步 和 最 后 一 步 ) 一 定 也 是 一 个 Pw 的 计算 ,并 且 在 这 个 计算 中 Xo 一 直 处 在 栈 底 。 原 因 是 ， 
除了 第 一 步 和 最 后 一 步 ，Pr 不 可 能 使 用 Py 中 没有 的 转移 ，% 也 不 可 能 被 暴露 出 来 ， 否 则 在 下 一 


步 计算 就 会 结束 。 因 此 可 以 得 出 结论 (qo,w; 用) 此 (b; 6, 日， 也 就 是 说 ，w 属 于 NUPN)。 
例 6.10 ”我 们 来 设计 一 个 PDA， 它 能 处 理 C 程 序 中 if 和 else 的 序列 ， 其 中 i 代表 if，e 代 表 
else。 回 想 _ 下 在 5.3.1 节 中 只 要 输入 串 的 任何 前 缀 中 else 的 个 数 超过 了 oy 
if 的 个 数 就 会 出 问题 ， 原 因 是 我 们 无 法 给 每 个 else 都 匹配 一 个 它 前 面 的 i ZZZ 
if。 因 此 ， 可 以 用 一 个 堆栈 符号 Z 来 记 数 已 经 看 到 的 ;的 个 数 和 e 的 个 数 的 4 
差 。 这 个 简单 的 一 个 状态 PDA 在 图 6-5 中 的 转移 图 中 给 出 。 Ts 


只 要 看 到 一 个 ;， 就 再 压 人 一 个 Z， 只 要 看 到 一 个 e 就 弹出 一 个 Z。 因 为 有 
开始 时 堆栈 中 有 一 个 Z， 因 此 实际 上 一 直 遵循 的 规律 是 ;如果 堆栈 中 内 容 ”方式 接受 ipyelse 错 误 
是 Z， 那 么 已 经 看 到 的 让 e 多 z- 1 个 。 特 别 是 ， 如 果 堆 栈 是 空 的 ， 那 么 看 的 PDA 
到 的 e 比 ;多 一 个 ， 而 且 读 入 的 输入 对 于 第 一 次 正好 变 成 非法 的 。 这 也 就 是 这 个 PDA 以 空 栈 的 方式 
接受 的 串 。Px 的 形式 化 描述 是 ; 

Py = ({9j {i, e}, {2},6v ,qd ,2) 
其 中 6y 的 定义 是 : 
1. 6v(q,i, 妃 = {(q,2D)}。 这 条 规则 是 说 在 看 到 一 个 i 时 就 压 入 一 个 Z。 
2. 6v(q,e,2) ={(q, 8)}。 这 条 规则 是 说 在 看 到 一 个 e 时 就 弹出 一 个 Z。 


eZE 
L/L 


Start 个 8 XZX 0 二 8 从 07E © 


图 6-6 从 图 6-5 中 的 PDA 出 发 来 构造 一 个 以 终结 状态 方式 接受 的 PDA 
现在 ， 从 Pw 构造 一 个 PDA Pr， 使 得 它 能 以 终结 状态 方式 接受 同样 的 语言 。P; 的 转移 图 在 图 
6-6 中 给 出 ”。 这 里 引入 一 个 新 的 初始 状态 p 和 一 个 新 的 接受 状态 >， 并 且 使 用 马 作 为 栈 底 的 标记 ， 
Pr 的 形式 定义 为 : 
Pr = ({p,q,7}, {i,e}, {2Z, Xo},6r ,p, Xo, {7}) 
其 中 56: 的 定义 是 : 


曲 不 用 疑惑 这 里 为 什么 使 用 了 新 的 状态 p 和 r， 而 在 定理 6.9 的 构造 方法 中 使 用 po 和 py。 状态 的 名 字 当 然 可 以 是 任 
意 的 。 
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1. 6r (p, E, Xo) = {(9, ZXo)}。 这 条 规则 使 得 Pr 模拟 Pw 的 过 程 开始 ， 其 中 使 用 作为 栈 底 的 
标记 。 
2.6F(q,i,2) = {(4q,;22)}。 这 条 规则 是 说 在 看 到 一 个 i 时 就 压 入 一 个 Z， 它 模拟 了 了 Pw。 
3.6F(q,e,2)={(q, 8)}。 这 条 规则 是 说 在 看 到 一 个 e 时 就 弹出 一 个 Z， 它 也 模拟 了 Pw。 
239 4. 6r(q, 2,Xo) = {(7, 2)}。 也 就 是 说 ， 当 Pw 将 要 变 为 空 栈 时 Pr 就 进入 接受 状态 。 轩 


6.2.4 从 终结 状态 方式 到 空 栈 方 式 


现在 来 萎 虑 相反 的 方向 : 给 定 一 个 以 终结 状态 方式 接受 语言 L 的 PDA Pr， 构 造 另 一 个 以 
空 栈 方 式 接受 L 的 PDA Px。 构造 的 过 程 比较 简单 ， 如 图 6-7 所 示 。 从 Pr 的 每 一 个 接受 状态 ， 添 
加 一 个 e 转 移 到 一 个 新 的 状态 p。 当 处 在 状态 p 时 ，Pw 从 堆栈 中 弹出 符号 ， 同时 不 消耗 任何 输 
入 。 这 样 ， 只 要 Pr 在 消耗 了 输入 w 之 后 进入 了 接受 状态 ， 相 应 的 Pw 就 会 在 消耗 了 w 之 后 清空 
它 的 堆栈 。 





图 6-7 Py 模拟 Px， 并 且 当 且 仅 当 Pr 进入 接受 状态 时 Pw 会 清空 它 的 堆栈 


为 了 避免 模拟 Pr 清空 了 它 的 堆栈 但 是 并 没有 进入 接受 状态 的 情况 ， Px 一定 也 要 使 用 一 个 栈 
底 的 标记 Xo。 这 个 标记 是 Py 的 初始 符号 ， 就 像 定理 6.9 中 的 构造 过 程 那样 ，Pw 必须 从 一 个 新 的 状 
态 po 开 始 ，po 的 惟一 作用 就 是 把 Pr 的 初始 符号 压 入 堆栈 然后 转移 到 Pr 的 初始 状态 。 图 6-7 是 这 个 
构造 过 程 的 略图 ， 并 且 在 下 一 个 定理 中 会 给 出 形式 化 的 描述 。 


定理 6.11 设 对 于 PDA Pr = (OQ, 了 ,了 ,6r , qo , Zo, 卫 ) 来 说 有 工 = L(Pr)， 那 么 存在 一 个 PDA Pw 
使 得 L = N(Pw)。 \ 
证 明 该 证 明 背 后 的 思想 在 图 6-7 中 表示 了 出 来 。 令 
ENv = 人 (UpoDh Z, LU {Xo},Ov ,Do X60) 
其 中 6w 的 定义 是 : 
1. Ow (po, E, Xo) = {(qo, ZoXo)}。 从 把 Pr 的 初始 符号 压 入 栈 中 并 进入 Ps 的 初始 状态 开始 。 
2. 对 于 Q 中 的 所 有 的 状态 9、 中 的 输入 符号 a 或 者 a = e 以 及 TI 中 的 堆栈 符号 7，6w (gq, a, 站 包 
舍 6r(q,a, 芒 中 的 所 有 序 对 ， 也 就 是 说 ， 忆 模拟 Pr。 
3. 对 于 F 中 的 所 有 接受 状态 9q 和 I 中 的 堆栈 符号 7 或 者 Y = 总，6v (gq, ,站 包含 (p, 2)。 根 据 这 条 
规则 ， 只 要 Pr 接受 ，Pw 就 可 以 开始 清空 它 的 堆栈 而 不 消耗 任何 输入 。 
4. 对 于 所 有 I 中 的 堆栈 符号 7 或 者 Y= Xo0，6w(p, 2, 了 = {(p, a)}。 一旦 进入 状态 p (只 有 当 P# 已 
经 进入 接受 状态 时 才能 发 生 )，Pw 就 弹出 堆栈 中 的 每 个 符号 直到 堆栈 为 空 ， 同 时 不 再 消耗 
240 任何 输入 。 


we 


现在 必须 要 证 明 : w 属 于 N(Pw) 当 且 仅 当 w 属 于 L(Pr)。 这 个 证 明 过 程 的 思想 和 定理 6.9 的 证 明 
很 相似 。“ 当 ”部 分 是 一 个 直接 的 模拟 ， 而 “ 仅 当 ”部 分 则 需要 验证 构造 的 PDA Pw 只 能 做 被 限 
制 得 很 “ 死 ” 的 事情 。 

( 当 ) 假设 对 于 某 个 接受 状态 和 堆栈 符号 串 c 有 (go w;, 26) 由 . (q, s, 0)。 利 用 Pi 的 任何 一 个 转 
移 同时 也 是 Py 的 一 个 转移 的 事实 ， 并 且 应 用 定理 6.5 允 许 我 们 保持 Xo 始终 处 在 堆栈 中 其 他 符号 的 
下 面 ， 可 以 得 到 (go， w,， ZoX0) pe (9， 2， CX0)。 那么 Pw 可 以 进行 下 面 的 移动 序列 : 

(po, w, Xo) 人 (qo, w, ZoXo) 让 (9， 2， OCX0) pe (P， 2， 8) 
第 一 步 移 动 是 根据 构造 Py 的 规则 (1) 得 出 的 ， 最 后 的 一 系列 移动 是 根据 规则 (3) 和 规则 (4) 得 出 的 。 
因此 Pw 可 以 以 空 栈 方式 接受 w。 

( 仅 当 ) Py 可 以 清空 它 的 堆栈 的 惟一 方式 是 进入 状态 p， 因 为 Xo 始终 处 在 栈 底 并 且 Xo 不 属于 
任何 Pr 的 移动 的 堆栈 符号 。Pv 能 进入 状态 p 的 惟一 方式 是 它 模拟 的 Pr 进入 一 个 接受 状态 。Pw 的 
第 一 步 移动 一 定 是 规则 (1) 给 出 的 移动 。 因 此 ， 每 一 个 Px 的 接受 计算 一 定 是 下 面 的 样子 

(Po， w, X0) 区 (qo, w, ZoXo) pe (gq, £, QX0) 了 (p, £, 5) 
其 中 gq 是 Pr 的 一 个 接受 状态 。 

此 外 ， 在 ID (qo, w, ZoXo) 和 (9， E， coXo) 之 间 1 所 有 移动 都 是 Pr 的 移动 。 特别 地 ， 在 到 达 ID (9， 
5, aXo)” 之 前 Xo 不 可 能 成 为 栈 顶 符号 。 因 此 可 以 得 出 结论 ; Pe 中 会 发 生 同 样 的 计算 , 栈 中 没有 %， 
也 就 是 说 ， (go, w, Z0) SS (9， 2， CQ)。 现在 我 们 看 到 疡 以 终止 状态 接受 w， 所 以 属于 ZCPP)。 口 


6.2.5 习题 


习题 6.2.1 设计 一 个 PDA 来 接受 下 列 语言 ， 你 可 以 使 用 以 终结 状态 方式 接受 或 者 以 空 栈 方 
式 接受 中 较 方 便 的 方式 。 
* a) {0"1l*|1n 宇 1}, 
b) 所 有 由 0 和 1 构成 的 使 得 任何 前 缀 中 1 的 个 数 都 不 比 0 的 个 数 多 的 串 的 集合 。 
c) 所 有 0 和 1 个 数 相同 的 0 和 1 串 的 集合 。 
! 习题 6.2.2 设计 一 个 PDA 来 接受 下 列 语言 。 
*a) {abpic17=J) 或 /= 对 。 注 意 ， 这 个 语言 和 习题 5.1.1(b) 中 的 语言 不 同 。 
b) 所 有 0 的 个 数 是 1 的 个 数 两 倍 的 串 的 集合 。 
!! 习题 6.2.3 设计 一 个 PDA 来 接受 下 列 语 言 。 
*a) {aibict1i 冯 了 或 j 关羽 。 . 
b) 所 有 不 是 ww 形式 的 c 和 2 的 串 的 集合 ， 也 就 是 所 有 不 是 一 个 串 重复 两 遍 的 串 的 集合 。 
“习题 6.2.4 设 P 是 一 个 以 空 栈 方式 接受 语言 Z 的 PDA， 即 艺 = N(P)， 并 且 假 设 e 不 属于 L。 描 述 
一 下 怎样 对 P 进 行 修改 使 得 它 能 够 以 空 栈 方 式 接受 语言 LU{e}。 
习题 6.2.5 PDA P = ({go, 491, q2, 93, 放 , {a, 5b}, {20, A, B}, 6, go, Zo, {了 具有 下 列 定义 6 的 规 
则 | : 


日 ”虽然 0 可 以 是 e， 但 在 这 种 情况 下 Pp 会 在 清空 它 的 堆栈 的 同时 进入 接受 状态 。 
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(go, a, 20) = (q1, AAZ) (qo, b, 20) = (q2, BZ0) O(qo; 8, 20) = (f, €) 


(qi,a, A) = (qi, 444) (qi,b; A) = (qi, 8) (qi, £, 20) = (qo, 20) 
0(g;, a, B) (93， 8) 0(9>， b, B) (gq2, BB) 0(g2, E， 20) (go, 20) 
(qs, £, B) = (gq;, 8) 0(q3, £, 20) = (qi, 4Z0) 


注意 ， 因 为 上 面 的 每 一 个 转移 都 只 有 一 个 移动 选择 ， 所 以 这 里 省 略 了 规则 中 的 花 插 号 。 
* a) 给 出 一 个 验证 串 bab 属 于 L(P) 的 执行 轨迹 (也 的 序列 )。 
b) 给 出 一 个 验证 串 abb 属 于 L(P) 的 执行 轨迹 。 
c) 给 出 当 P 从 输入 中 读 入 了 ba 后 堆栈 的 内 容 。 
!1d) 非 形 式 化 地 描述 L(P)。 
习题 6.2.6 考虑 习题 6.1.1 中 的 PDA P。 
a) 把 P 转 换 成 为 男 外 一 个 PDA P1， 使 得 Pi 能 够 以 空 栈 方式 接受 P 以 终结 状态 方式 接受 的 语言 ， 
BN(P) = ZCP)。 
b) 找 出 一 个 PDA P,， 使 得 L(P;) = N(P)， 也 就 是 说 ，P; 能 够 以 终结 状态 方式 接受 P 以 空 栈 方 
式 接受 的 语言 。 
! 习题 6.2.7 证明: 如果 P 是 一 个 PDA， 那 么 存在 一 个 只 有 两 个 堆栈 符号 的 PDA P;， 满 足 
L(P;) = L(P)。 提 示 : 把 P 的 堆栈 字母 表 用 二 进 制 编码 。 
*! 习题 6.2.8 ”一 个 PDA 被 称 为 受 限 的 ， 如 果 它 的 任何 一 个 转移 都 只 能 让 它 的 堆栈 的 高 度 增长 
至 多 一 个 符号 。 也 就 是 说 ， 对 于 任何 包含 2, 的 规则 5(q, wa, 忆 ， 它 一 定 有 1 y1<2。 试 证 明 ; 如 果 
P 是 一 个 PDA， 那 么 存在 一 个 受 限 的 PDA P;3 满 足 L(P) = L(P;)。 


6.3 PDA 和 CFG 的 等 价 性 


本 市 将 要 说 明 PDA 所 定义 的 语言 恰好 就 是 上 下 文 无 关 语 言 。 图 6-8 给 出 了 计划 进行 证 明 的 步 
又 。 最 终 的 目的 是 证 明 下 面 三 类 语言 : 

1. 上 下 文 无 关 语 言 ， 即 CFG 所 定义 的 语 

2. 被 某 个 PDA 以 终结 状态 方式 接受 的 语 

3. 被 某 个 PDA 以 空 栈 方式 接受 的 语言 。 
都 是 同样 的 语言 类 。 我 们 已 经 证 明了 (2) 和 (3) 是 相同 的 。 下 面 会 证 明 (1) 和 (3) 也 是 同样 的 ， 因 而 意 


味 着 这 三 者 的 等 价 性 。 
以 空 栈 方式 以 终结 状态 方式 
接受 的 PDA 接受 的 PDA 


图 6-8 三 种 定义 CFL 的 方式 的 等 价 性 的 证 明 过 程 的 组 织 


nn 到 






6.3.1 从 文法 到 PDA 


给 定 一 个 CFG G， 我 们 来 构造 一 个 模拟 G 的 最 左 推导 的 PDA。 任 何不 是 终结 符 串 的 左 句 型 都 
可 以 写成 xAa 的 形式 ， 其 中 4 是 最 左 变 元 ,x 是 它 左 边 的 所 有 终结 符 ，a 是 由 所 有 A 右边 的 终结 符 


TA 


和 变 元 构成 的 串 。 我 们 称 4a 为 这 个 左 句 型 的 许 。 如 果 这 个 左 句 型 只 包含 有 终结 符 ， 那 么 它 的 尾 
为 6。 

这 个 从 文法 来 构造 PDA 的 过 程 背后 的 思想 是 : 用 PDA 来 模拟 该 文法 用 于 产生 一 个 给 定 的 终 
结 符 串 w 的 左 句 型 的 序列 。 每 个 名 型 x4a 的 尾 都 出 现在 堆栈 上 ， 并 且 4 在 顶部 。 这 时 候 ，x 通 过 下 
面 的 形式 来 “表示 ”: 我 们 已 经 从 输入 中 消耗 了 x， 并 且 同 时 把 w 中 除了 前 绥 x 剩 下 所 有 的 东西 留 
在 输入 中 。 也 就 是 说 : 如 果 w = xy， 那 么 y 将 仍 留 在 输入 中 。 

假设 PDA 处 在 ID (gq, y, 4a) ， 它 表示 左 句 型 x4aw。 接 着 猜测 扩展 4 的 产生 式 ， 比 如 4 一 6。 该 
PDA 的 移动 是 用 5 来 替换 栈 顶 的 4， 进 入 ID 〈q,y Ba)。 注 意 ， 这 个 PDA 只 有 一 个 状态 4。 

现在 〈q,y, Ba) 可 能 并 不 能 表示 下 一 个 左 句 型 ,因为 B 可 能 有 一 个 有 终结 符 的 前 级 。 事 实 上 ， 
Bb 中 甚至 可 能 根本 没有 变 元 ， 而 且 Q 可 能 有 一 个 有 终结 符 的 前 级 。 下 面 要 做 的 是 去 除 Ba 开 头 部 分 
的 终结 符 ， 暴 露出 栈 顶 的 下 一 个 变 元。 此 时 无 论 去 掉 的 是 什么 终结 符 ， 它 们 都 需要 同 下 一 个 输 
入 符号 进行 比较 ， 从 而 确定 对 于 输入 串 w 的 最 左 推 导 的 猜测 正确 与 否 。 如 果 不 正确 ， 那 么 这 个 
PDA 的 分 支 就 死亡 。 

如 果 用 这 个 方式 猜测 w 的 最 左 推导 成 功 ， 那 么 最 终 到 达 w 的 左 名 型 。 这 时 所 有 堆栈 上 的 符号 
或 者 被 扩展 (如 果 它 们 是 变 元 ) 或 者 被 用 来 和 输入 进行 匹配 《如果 它们 是 终结 符 ) 。 此 时 堆栈 为 
空 ， 因 此 以 空 栈 方式 接受 。 

以 上 的 非 形式 化 的 构造 过 程 可 以 精确 地 表示 如 下 。 设 G=(V, T, 8, 5) 是 一 个 CFG。 构 造 以 空 
栈 方式 接受 L(G) 的 PDA P 如 下 : 

P=({9g},T,VUT, 0,9, 93) 
其 中 转移 图 数 6 的 定义 是 : 
1. 对 于 每 一 个 变 元 4， 
069,8,4)={9, 有 14 一 有 是 G 的 一 个 产生 式 } 
2. 对 于 每 一 个 终结 符 a， 6(q, a,a) ={(9,8)}。 


例 6.12 我 们 来 把 图 5-2 中 的 表达 式 文 法 转换 成 一 个 PDA。 回 想 一 下 这 个 文法 是 : 
I»>albllallbl710171 
EIIE*EIE+EI(E) 


这 个 PDA 的 终结 符 的 集合 是 {a,b,0,1,(,),+, *}。 这 8 个 符号 再 加 上 符号 玫 IE 就 构成 了 堆栈 字母 表 。 
这 个 PDA 的 转移 函数 是 : 

a) (gq, ,7) = {(q, a), (q, b), (q, 1a), (q, 1b), (q, 10), (q, 11)}. 

b) 0(g, 8, E) = {(q,)D), (gq,E +E),(g,E*E),(g,(E))}。 

c) (gq, a, a) = {(q, £)}; (gq,b,b)= {(g, £)}; (gq,0;0)= {(g, 2)}; 6(g, 1,1)= {(g, 2)}; 6(g,(,0 = 

{(q, 2)}; 6g, ), )) = {(q, 2)}; (gq, +, +) = {(q, 8)}; (gq, *, *) = {(q, £)}。 

注意 ，(a) 和 (b) 来 自 规则 (1)， 而 (c) 中 的 8 个 转移 来 自 规则 (2)。 除 了 (a) 到 (ec) 定义 了 的 以 外 ，56 

为 空 。 口 


定理 6.13 如 采 PDA P 是 用 上 面 的 方式 从 CFG G 构 造 出 来 的 ， 那 么 N(P) = L(G)。 


“(也 就 是 直到 首次 堆栈 中 只 剩 k 一 1 个 符号 ) 中 消耗 的 输入 ， 
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证 明 我 们 将 要 证 明 w 属 于 N(P) 当 且 仅 当 w 属 于 LG)。 
( 当 ) 假定 w 属 于 L(G)， 那 么 w 有 最 左 推导 


了 


通过 对 i 进行 归纳 来 证 明 (4,w, 9) 此 (4,y, oa)， 其 中 和 w 是 左 句 型 % 的 一 种 表示 。 也 就 是 说 ， 设 w 
为 % 的 尾 ，X=xm04， 则 yi 是 满足 x = w 的 串 也 就 是 说 ， 它 是 从 输入 中 去 掉 后 剩 下 的 部 分 )。 

基础 : 对 于 ; = 1, y= S$， 因 此 x =e，y1 = w。 因 为 考虑 0 步 时 有 (gq,w, 5) 上 (q,w,5)， 所 以 基础 
得 证 。 : 

归纳 :继续 考虑 第 二 个 以 及 后 续 的 其 他 句 型 。 假 设 

(q, w,S) FE (gq, yi, 0%) m 

证 明 (q,w;5) 上 (qsyir1, wy)。 因 为 0 是 一 个 尾 ， 所 以 它 以 一 个 变 元 4 开头 。 此 外 ， 在 y==%+1 这 
步 推导 中 需要 用 4 的 一 个 产生 式 的 体 来 替换 4， 设 为 6。 构造 P 的 规则 (1) 使 我 们 能 够 用 6 来 替换 处 
在 栈 顶 的 4， 而 规则 (2) 使 我 们 能 够 用 输入 串 来 和 栈 顶 的 任何 终结 符 串 进行 匹配 。 因 此 最 后 的 结 
局 是 我 们 到 达 了 ID (q, yi+1; airyD， 它 表 示 下 一 个 左 句 型 yi。 

为 了 完成 整个 证 明 过 程 ， 我 们 注意 到 0 = e， 因 为 %( 即 w) 的 尾 为 空 。 因 此 可 以 得 到 (q, w， 
5) 上 (gq, e, e)， 因 而 证 明了 P 以 空 栈 方式 接受 w。 

( 仅 当 ) 我 们 需要 证 明 一 些 更 一 般 的 结论 : 如 果 P 执 行 了 一 系列 的 移动 ， 而 这 些 移动 的 “ 净 
效应 ”就 是 从 栈 顶 弹出 变 元 4， 而 栈 中 处 于 A 下 面 的 符号 并 没有 使 用 ， 那 么 在 G 中 A 能 够 推导 出 在 
这 个 过 程 中 从 输入 中 消耗 的 串 。 确 切 地 说 就 是 : 


“如 果 (q,x,A) 睛 (@, es 日 ， 则 有 4 一 zx。 


它 的 证 明 是 通过 对 P 所 做 的 移动 的 步 数 进行 归纳 来 完成 的 。 
基础 :一步 移 动 的 情况 。 惟 一 的 可 能 是 4 一 e 是 G 的 一 个 产生 式 ， 并 且 这 个 产生 式 被 PDA P 在 
(1) 型 的 规则 中 使 用 。 在 这 种 情况 下 有 x = s， 因 而 得 知 4 一 8. 
归纳 : 假定 P 的 移动 共有 n 步 ， 其 中 n > 1。 那 么 它 的 第 
一 步 移动 一 定 是 (1) 型 的 ， 也 就 是 在 栈 顶 用 A 的 一 个 产生 式 
的 体 来 替换 4。 原 因 是 (2) 型 的 规则 只 能 用 在 栈 顶 为 终结 符 
的 情况 下 。 假 设 使 用 的 产生 式 是 4 一 页 丈 … 歼 ， 其 中 蕊 可 以 
是 终结 符 或 者 变 元 。 
P 的 后 面 的 n 一 1 步 移动 必须 从 输入 中 消耗 z:， 同 时 它们 3B 
的 “ 净 效 应 ”是 分 别 从 栈 中 弹出 巧 ， 丈 等 ， 一 次 一 个 。 我 们 
可 以 把 zx 分解 为 zzz xx， 其 中 x 是 在 从 堆栈 中 弹出 雹 的 过 程 rr 





态 是 在 从 堆栈 中 弹出 也 的 过 程 中 消耗 的 输入 ， 依 此 类 推 , . Mr 
图 6-9 给 出 了 输入 x 被 分 解 的 形式 ， 以 及 相应 的 堆栈 的 x 加 加 
情况 。 其 中 ， 假定 6 为 BaC， 因此 x 被 分 为 三 部 分 xix2x3， 其 图 6-9 消耗 x 并 且 从 堆栈 中 弹出 

中 央 = a。 注 意 ,更 一 般 的 情况 : 如果 了 是 一 个 终结 符 ， 那 BaC 的 PDAP 
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么 x 一 定 就 是 这 个 终结 符 。 

可 以 把 结论 形式 化 地 记 作 (gq， XR FT Xs Yi) 全 (gq, N+ i NX, ED), 对 于 所 有 的 =1， Zt , Re 此 外 ， 
这 些 序列 中 的 每 一 个 都 不 能 超过 n 一 1 步 ， 因 此 如 果 Y; 是 一 个 变 元 就 可 以 应 用 归纳 假设 ， 也 就 是 
说 ,我 们 可 以 得 到 YY 二 x 。 

如 果 了 是 一 个 终结 符 ， 那 么 一 定 只 有 一 步 移动 ， 并 且 这 步 移动 就 是 用 x; 的 一 个 符号 和 玉 进 行 
匹配 ,而 且 它 们 一 定 相 同 。 因 此 仍然 可 以 得 到 了 二 x ， 这 次 只 使 用 了 0 步 。 现在， 得 到 了 如 下 推 
导 : 


4 一 > YY x 


有 即 ee 
为 了 完成 整个 证 明 过 程 ， 还 需要 令 A = 5S,x = w。 因 为 已 知 w 属 于 N(P)， 所 以 可 以 得 到 (gq, w， 
5) 上 (da, s, 8。 再 根据 刚才 归纳 证 明 的 结论 可 知 5 二 w ， 即 w 属 于 L(G)。 口 


6.3.2 从 PDA 到 文法 


现在 进行 等 价 性 证 明 的 另 一 部 分 : 对 于 任意 的 PDA P， 可 以 找到 一 个 CFG G， 使 得 G 的 语言 
恰好 就 是 P 以 空 栈 方式 接受 的 语言 。 这 个 证 明 背 后 的 思想 是 : 发 现 了 PDA 对 一 个 给 定 的 输入 的 处 
理 过 程 中 的 基本 事件 是 仅仅 把 一 个 符号 从 堆栈 中 弹出 ， 同 时 消耗 某 个 输入 。 一 个 PDA 可 能 在 它 
从 堆栈 中 弹出 符号 的 同时 改变 状态 ， 因 此 还 需要 注意 它 的 堆栈 最 终 弹 出 一 级 时 它 所 进入 的 状态 。 

如 图 6-10 所 示 ， 从 堆栈 中 弹出 一 系列 的 符号 蕊 ,到 ，… 
Y.。 当 弹出 六 时 读 入 了 某 个 输入 x1!。 应 该 注意 的 是 这 里 的 
“弹出 ”实际 上 是 许多 移动 的 净 效应 。 例 如 ， 第 一 步 移动 也 
许 会 把 马 变 为 其 他 的 符号 Z， 接 下 来 的 移动 也 许 会 用 VV 来 替 
换 Z， 后 面 的 一 些 移动 的 效应 是 弹出 了 U， 再 后 面 的 一 些 动 
作 的 效应 是 弹出 了 V。 所 有 这 些 移动 的 净 效应 是 把 用 空 来 
替换 ， 即 把 它 弹出 ， 而 在 这 个 过 程 中 所 消耗 的 输入 就 是 z。 

图 6-10 中 也 给 出 了 状态 的 净 改 变 。 假 定 该 PDA 从 状态 po 
出 发 ， 同 时 栈 顶 为 Yi。 经 过 了 所 有 整体 净 效 应 为 弹出 Fi 的 
移动 之 后 ， 该 PDA 处 在 状态 p1。 接 着 它 继续 ( 净 ) 弹出 到 ， 
同时 读 取 输入 串 x.， 同 时 可 能 在 经 过 很 多 步 移动 直到 最 终 
弹出 的 动作 被 全 部 完成 的 时 候 处 在 状态 p2。 这 样 的 计算 。 图 6 1 个 pDA 人 系列 的 移动 
会 不 断 继续 下 去 ， 直 到 堆栈 中 的 每 一 个 符号 都 被 去 掉 为 止 。 而 这 些 移动 的 “ 净 效 应 ”就 是 

构造 等 价 的 文法 需要 使 用 一 些 变 元 ， 每 一 个 变 元 代表 从 栈 中 弹出 一 个 符号 
一 个 “事件 ”， 这 些 事 件 包括 ; 

1. 从 栈 中 净 弹 出 某 个 符号 X， 以 及 

2. 状态 的 改变 ， 从 开始 时 处 于 的 状态 p 到 最 后 当 堆 栈 中 的 X 完 全 被 所 替代 时 所 处 的 状态 gq。 

可 以 用 组 合 符号 [pX9] 来 表示 这 样 的 变 元 。 记 住 这 个 字符 的 序列 是 我 们 描述 一 个 变 元 的 方 
式 ， 它 不 是 五 个 文法 符号 。 形 式 化 的 构造 过 程 由 下 面 的 定理 给 出 。 


定理 6.14 设 P = (0Q, 3, 古 ,6 ,qo , Zo) 是 一 个 PDA。 则 存在 一 个 上 下 文 无 关 文 法 G 满 足 L(G) = 


pe 2 Xk 





上 > 


kt 
~ 
| 
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NE), 
证 明 我 们 将 要 构造 G=(V, 2,R;5)， 其 中 变 元 V 的 集合 包括 : 
1. 特殊 的 符号 S， 它 是 初始 符号 ， 以 及 
2. 所 有 [PpXq] 形 式 的 符号 ， 其 中 p 和 g 是 CQ 中 的 状态 ，X 是 IT 中 的 堆栈 符号 。 
G 的 产生 式 如 下 : 
a) 对 于 每 一 个 状态 p，G 有 产生 式 S 一 [qoZop]。 直 觉 告 诉 我 们 像 [9oZop] 这 样 的 符号 的 作用 是 产 
生 所 有 具有 如 下 性 质 的 串 w: 它 能 够 导致 P 从 堆栈 中 弹出 Z4， 同 时 从 状态 qo 转 到 状态 p， 也 
就 是 说 ， 满 足 (go, w, Zo) 上 (, ,a)。 假 如 这 样 的 话 ， 那 么 这 些 产 生 式 是 说 ; 初始 符号 5 生成 
所 有 导致 在 初始 卫 出 发 之 后 进入 空 栈 状 态 的 串 w。 
b) 令 6(q,a;X) 包 含 序 对 (r, 7 丈 …… 到 )， 其 中 : 
1.a 是 > 中 的 一 个 符号 ， 或 者 a = 8。 
2.K 可 以 是 任何 数 ， 包 括 0， 此 时 该 序 对 为 (r, 8)。 
那么 对 于 所 有 状态 的 序列 ri,r2,…,rt:，G 都 有 产生 式 
[gqXre J a[lr¥iri] [riY2r2]** [re Yerx] 
这 个 产生 式 是 说 ; 弹出 X 并 且 从 状态 q 转 到 状态 ni 的 一 种 方法 是 读 入 a (也 可 能 为 se) ， 
接着 通过 消耗 某 个 输入 来 从 堆栈 中 弹出 五， 同时 从 状态 r 转 到 状态 方 ， 然后 读 入 另 一 个 输 
入 来 从 堆栈 中 弹出 到 ， 同 时 从 状态 mi 转 到 状态 盖 ， 依 此 类 推 。 
现在 应 该 证 明 对 于 变 元 [9Xp] 的 非 形式 化 解释 的 正确 性 了 : 


[gXp]=w 当 且 仅 当 (gq， w, X) 4, 2， 5)。 


( 当 ) 假设 有 (q, w, 习 上 人 , & a)。 我 们 将 要 通过 对 PDA 所 做 移动 的 步 数 使 用 归纳 法 来 证 明 
[gXp]=>w 。 

基础 : 考虑 只 有 一 步 移动 的 情况 ， 这 时 (p, se) 一 定 属于 6(q, w, 了， 并 且 w 是 一 个 单个 的 符号 或 
者 E。 根 据 G 的 构造 过 程 可 知 [9Xp] 一 w 是 一 个 产生 式 ， 因 此 有 [4Xp] 志 w。 

归纳 : 假设 序列 (q,w, 加 上 (p, s a) 共有 n 步 ， 其 中 n> 1， 那 么 第 一 步 移动 一 定 是 如 下 形式 的 ; 

(gq,w, OT (ro,x, TP“Y¥7 Pp,E, 本 

其 中 w = ax， 并 且 a 是 > 中 的 一 个 符号 或 者 ze。 由 此 可 知 序 对 (ro, 7]…7) 一 定 属 于 6(gq, a, X)。 更 进 
一 步 来 说 ， 根据 G 的 构造 过 程 可 知 ， 有 一 个 产生 式 是 [gqXrx] 一 a[roYir1] [riYzr2j…[re-iYxrx]， 其 中 : 

.resp 半生. 

2.7 72, 71 是 2 中 的 任何 状态 。 

特别 地 ， 就 像 图 6-10 中 所 示 的 那样 ， 我 们 可 以 发 现 : 六 , 丈 , …, 中 的 每 个 符号 依次 被 从 堆 
栈 中 弹 了 出 来 ,同时 对 于 i = 1, 2, …,k 一 1， 可 以 令 ri 为 该 PDA 刚 弹出 二 时 所 处 在 的 状态 。 令 x = 
wiw2… wr， 其 中 wi 是 二 从 堆栈 中 弹出 时 消耗 的 输入 串 。 因此 可 知 (rii, wis 五 ) Fn e, 2)。 

由 于 这 些 移动 序列 都 不 到 n 步 ， 因 此 可 以 对 它们 使 用 归纳 假设 ， 从 而 得 出 结论 [rk le ws 
我 们 可 以 把 这 些 推 导 与 第 一 个 产生 式 合 起 来 ， 最 终 得 出 结论 : 


OO wo vv ww 


[gqXr,] 一 aln Yr ln] tn n= 
aw [rn Yr lr Yn: ht tl» 


awiw,[ls nls ln j= 


其 中 ri =p。 

( 仅 当 ) 这 部 分 的 证 明 需 要 对 推导 的 步 数 进行 归纳 。 

基础 :考虑 只 有 一 步 移动 的 情况 ， 此 时 [gqXp] 一 w 一 定 是 一 个 产生 式 。 存 在 该 产生 式 的 惟一 
的 方法 就 是 存在 一 个 P 的 转移 能 够 在 弹出 X 的 同时 从 状态 q 转 到 状态 p。 也 就 是 说 ，(p, a) 一 定 属于 
6(q,a,X)， 并 且 a =w。 但 是 ， 这 时 就 有 (q,w, DD 上 人,s, 6)。 

归纳 : 假设 [gxXp] 二 w 共有 n 步 ， 其 中 n> 1。 具 体 孝 虑 第 一 个 句 型 ， 它 一 定 是 如 下 形式 的 : 


[gqXr. | > qlrr rlln ld: l=w 


其 中 re =p。 这 个 产生 式 一 定 来 源 于 (ro, 了 72… 了 i) 属 于 5gq, a,X) 这 一 事实 。 
可 以 把 w 分 解 为 w = awiw2…w:， 使 得 对 于 所 有 的 i = 1, 2,…,k， 有 [-_ Zr] 一 w 。 由 归纳 假设 
可 知 ， 对 于 所 有 的 i， 有 
(Fi wi, Y;) 上 (ri e, 5) 
如 果 用 定理 6.5 来 把 wi 之 后 正确 的 串 作 为 输入 ， 同 时 把 之 后 的 符号 放 在 堆栈 上 ， 可 知 : 
(ri 1, Wi Wi Wh YY Yi ) EG Wirl “We, Vit*** Yi) 
如 果 把 所 有 的 这 些 序列 都 合 起 来 ， 可 以 得 到 : 
(g, awi wa "wx, X) 上 (ro wi wa wre, Yi Fi) 
(ri, W2 Wa3 "We, YoY3 :Yi ) FE (7, wa “wx, Y3:… 1) 一 Wy FE ri, £2) 
因为 r=p， 所 以 得 证 (gq, w, 上 (, &, 2)。 
完成 这 一 证 明 如 下 : 5 二 w 当 且 仅 当 对 某 个 p 有 [gu 2 中 一 w ， 而 这 一 点 由 初始 符号 5 的 规则 
被 构造 的 方式 可 知 。 刚 才 已 经 证 明了 [gq Zp] 二 w 当 且 仅 当 (g, w, DZ) 上 p, 8, as) 成立， 也 就 是 说 ， 
当 且 仅 当 PP 以 空 栈 方式 接受 x。 因 此 ; L(G)=N(P)。 口 


例 6.15 把 例 6.10 中 的 PDA Pn = ({q}, {i,e}, {如 ,6y ,9q , 妃 转化 为 一 个 文法 。 回 想 一 下 ，Pw 
接受 所 有 的 第 一 次 出 现 e (else) 无 法 和 它 前 面 的 i (让 ) 匹配 的 非法 串 。 由 于 Pw 只 有 一 个 状态 和 
一 个 堆栈 符号 ， 因 此 构造 过 程 非常 简单 。 下 面 是 文法 G 中 仅 有 的 两 个 变 元 : 

a) 初始 符号 5， 每 个 用 定理 6.14 中 的 方法 构造 的 文法 都 有 它 。 

b) [qZq]， 它 是 惟一 由 Pw 的 堆栈 符号 和 状态 组 成 的 三 元 组 。 
文法 G 的 产生 式 为 : 

1.5 的 产生 式 只 有 5S 一 [92Zq]。 然 而 ， 如 果 该 PDA 有 n 个 状态 ， 那 么 就 会 有 n 个 这 种 类 型 的 产生 

式 ， 因 为 最 后 的 状态 可 能 为 这 n 个 状态 之 一 。 不 过 第 一 个 状态 必须 是 初始 状态 ， 堆 栈 符号 
必须 是 初始 符号 ， 就 像 上 面 的 产生 式 .那样 。 z 
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2. 由 于 6w (4, i, 习 包 含 (9, ZZ)， 因 此 我 们 得 到 了 产生 式 [gq2Zq] 一 ifgZq][qZq]。 同 样 ， 如 果 有 nn 个 
状态 ， 那 么 这 条 规则 将 会 产生 到 个 产生 式 ， 原 因 是 体 中 间 的 两 个 状态 可 以 是 任何 一 个 状 
态 p， 而 头 和 体 的 最 后 状态 也 可 以 是 任何 一 个 状态 。 也 就 是 说 ， 如 果 p 和 r 是 PDA 的 任何 两 
个 状态 ， 那 么 将 会 生成 产生 式 : [gq2p] 一 i[q2r][r2p]。 

3. 由 于 6w(q,e, 尹 ) 包含 (q, e)， 因 此 我 们 得 到 了 产生 式 

[9Z9] 一 e 
注意 ， 在 这 种 情况 下 ， 用 来 替换 Z 的 堆栈 符号 列表 为 空 ， 因 此 体 中 惟一 的 符号 就 是 导致 这 
个 移动 的 输入 符号 。 
为 了 方便 起 见 ， 可 以 用 一 个 简单 些 的 符号 (比如 4) 来 代替 三 元 组 [gZz]。 如 果 这 样 做 ， 那 


么 完整 的 文法 所 包含 的 产生 式 为 : 


9 一 4 
4 一 ;1441e 
事实 上 ， 二 的 玫 束 到 4 和 5 实际 二 推导 出 了 相同 的 课 ， 那么 我 们 就 可 以 把 它们 看 作 同 一 
个 符号 ， 进 而 整个 文法 可 以 写作 : 


G=({S}, {i,e}, {S—iSS1e}, Ss) i 
6.3.3 习题 : 
* 习题 6.3.1 把 文法 
Ss—0S11A 
| A—1A01Sle 
转换 成 以 空 栈 方式 接受 同样 语言 的 PDA。 
习题 6.3.2 把 文法 
S—aAA 
A—=aSlbSla 


转换 成 以 空 栈 方式 接受 同样 语言 的 PDA。 
* 习题 6.3.3 把 PDA P=({p,9}, {0,1},{X,20},6,q, 0) 转 化 为 一 个 CFG， 其 中 6 为 ， 

1. dg, 1, 2) = {(q, XZ0)}.。 

2. 0(g, 1, X) = {(q, XX)}。 

3.0(g,0, X) = {(p, X)}。 

4. 0(gq, £, X) = {(q, 5)}。 

5.0(p, 1,X) = {(p, 8)}。 

6. 6(p, 0, 20) = {(q, 20)}。 

习题 6.3.4 把 习题 6.1.1 中 的 PDA 转 换 为 一 个 上 下 文 无 关 文 法 。 

习题 6.3.5 下面 是 一 些 上 下 文 无 关 语 言 。 对 于 其 中 的 每 一 个 文法 ， 设 计 一 个 以 空 栈 方 式 接 
受 同 样 语言 的 PDA。 如 果 需 要 的 话 ， 你 可 以 首先 给 这 些 语言 构造 相应 的 文法 ， 然后 再 把 它们 转 


ai 


化 为 PDA。 
a) {an"pmc20rtm | 1 过 0, m 宇 0}。 
b) {aibict1i=2j 或 者 j= 2k}。 
c) {0°l"|In<m<2n}., 
*! 习题 6.3.6 证 明 如 果 P 是 一 个 PDA， 那 么 存在 只 有 一 个 状态 的 PDA P1， 满 足 N(P1) = N(P)。 
! 习题 6.3.7 假设 有 一 个 PDA， 它 有 s 个 状态 、! 个 堆栈 符号 ， 并且 它 的 所 有 规则 中 替换 堆栈 中 
的 串 的 长 度 都 不 超过 zx。 当 使 用 6.3.2 节 中 的 方法 来 构造 和 这 个 PDA 相 应 的 CFG 时 ， 试 给 出 这 个 
CFG 中 变 元 数目 的 紧 上 界 。 


6.4 确定 型 PDA 


虽然 根据 定义 PDA 可 以 古 非 确定 的 ,但 是 在 限制 为 确定 型 的 情况 下 也 很 有 意义 。 特 别 地 ， 
语法 分 析 器 通常 都 是 确定 型 的 PDA， 因 此 对 于 深入 研究 哪些 结构 比较 适合 用 在 编程 语言 中 来 说 ， 
这 些 目 动机 所 接受 的 语言 类 是 很 有 意思 的 。 在 本 市 中 ， 将 会 定义 确定 型 下 推 自动 机 ;并 且 将 会 
分 别 研究 它们 能 做 和 不 能 做 的 事 。 


6.4.1 确定 型 PDA 的 定义 


直觉 上 ， 如 果 在 任何 情况 下 都 不 需要 移动 的 选择 ， 则 一 个 PDA 是 确定 型 的 。 有 两 种 类 型 的 
选择 。 如 果 6(q, a, 加) 包含 多 于 一 个 的 序 对 ， 那 么 当然 这 个 PDA 肯 定 就 是 非 确定 型 的 ， 原 因 是 当 
决定 下 一 步 移动 时 需要 在 这 些 序 对 中 选择 一 个 ， 然 而 ， 即 使 5(gq, a, 如 总 是 单个 元 素 的 ， 我 们 仍 
然 有 需要 作 选 择 的 情况 ， 比 如 是 使 用 一 个 真实 的 输入 符号 还 是 执行 一 个 s 上 的 移动 。 因 此 ， 我 们 
定义 一 个 PDA P= (OQ, 二 ,了 6, qo, Zo, 卫 ) 为 确定 型 的 .( 称 为 确定 型 PDA 或 DPDA) 当 目 仅 当 下 列 条 
件 被 满足 : : : 

1. 对 于 所 有 的 Q 中 的 状态 9、 中 的 输入 符号 a 或 者 a = se 以 及 I 中 的 堆栈 符号 X，6(g, a, 加 至 

多 有 一 个 成 员 。 
2. 如 果 对 于 了 中 的 某 些 输入 符号 ax 有 69, wa, 避 非 空 ， 那 么 同时 8d, ,加 一 定 为 空 。 


例 6.16 看 上 去 例 6.2 中 的 语言 Lwwr 是 一 个 没有 DPDA 的 CFL。 然 而 ， 通 过 在 中 间 放 置 一 个 
“中 间 标 记 ”c， 就 可 以 用 一 个 DPDA 来 识别 这 个 语言 。 也 就 是 说 ， 我 们 可 以 用 一 个 确定 型 PDA 来 
识别 语言 Low = {wecwr 1w 属 于 (0 + DD)* }。 

该 DPDA 的 策略 是 用 堆栈 来 保存 0 和 1， 直 到 它 “ 看 到 ”中 间 标 记 c。 接 着 它 转 到 另 一 个 状态 ， 
在 这 个 状态 下 它 用 输入 符号 来 和 栈 顶 符号 进行 匹配 ， 如 果 它 们 匹配 就 从 栈 顶 弹出 该 符号 。 如 果 
一 旦 不 匹配 ， 那 么 它 就 拒绝 它 的 输入 串 ， 它 的 输入 串 不 是 wews 形式 的 。 如 果 它 成 功 地 弹出 堆栈 
中 符号 一 直到 初始 符号 ， 也 就 是 栈 底 标 记 ， 那 么 它 就 接受 它 的 输入 串 。 

这 个 思想 和 在 图 6-2 中 看 到 的 PDA 很 类 似 ,但 是 那个 PDA 不 是 确定 型 的 ， 原因 是 在 状态 po 时 
它 总 是 有 一 种 选择 : 把 下 一 个 输入 符号 压 入 堆栈 ， 还 是 做 一 个 转移 来 转 到 状态 gi; 也 就 是 说 ， 
它 不 得 不 猜测 自己 什么 时 候 到 达 中 间 。Lwowr 的 DPDA 在 图 6-11 中 以 转移 图 的 方式 给 出 。 
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图 6-11 一 个 接受 Low 的 确定 型 PDA 


这 个 PDA 显 然 是 确定 型 的 。 在 同样 的 状态 下 ,使 用 相同 的 输入 和 堆栈 符号 ， 它 从 不 需要 做 
移动 选择 。 而 且 对 于 使 用 实际 的 输入 符号 还 是 z 的 选择 来 说 ， 它 所 做 的 惟一 es 转移 是 当 栈 顶 为 乙 时 
它 从 状态 4i 转 到 gz。 然而 ， 在 状态 9 时 ; 当 栈 顶 为 五 时 并 没有 其 他 可 选 的 移动 ， 口 


6.4.2 正则 语言 与 确定 型 PDA 


DPDA 接 受 的 语言 类 处 在 正则 语言 和 CFL 之 间 。 我 们 首先 证 明 DPDA 语 言 包括 所 有 的 正则 语 


ml 


定理 6.17 如 果 Z 是 正则 语言 ， 则 对 于 某 个 DPDA P 有 L = L(P)。 

证 明 ”实质 上 ，DPDA 可 以 模拟 确定 型 有 穷 自动 机 。 这 样 的 PDA 在 它 的 堆栈 上 保存 一 个 堆栈 
符号 Zo， 其 原因 是 PDA 不 得 不 有 一 个 堆栈 ， 但 是 实际 上 该 PDA 忽 略 了 它 的 堆栈 而 仅 使 用 它 的 状 
态 。 形 式 化 地 设 4 = (2, 2, 64, qo, 有 由 是 一 个 DFA。 构 造 DPDA 

pa(0, (2 Ga 了 
的 方法 是 : 对 于 所 有 Q 中 满足 64(q, a) = p 的 状态 p 和 gq， 定 义 6p(q, a, Zo = {(p,20)}。 

我 们 可 以 断言 (qo, w, Do) 片 2,s, Do) 当 且 仅 当 6,(4,,w) = p 。 也 就 是 说 ，P 使 用 它 的 状态 来 模 
拟 4。 两 个 方向 的 证 明 都 很 容易 通过 对 Iwl 进 行 归纳 来 完成 ， 我 们 将 其 留 给 读者 。 由 于 A 和 P 都 通 
过 进入 F 中 的 状态 来 接受 ， 因 此 可 以 得 出 它们 的 语言 是 相同 的 。 口 


如 采 想 让 DPDA 以 空 栈 方式 接受 ， 那 么 将 会 发 现 我 们 的 语言 识别 能 力 是 非常 受 限 的 。 称 一 个 
语言 有 前 组 性 质 是 指 不 存在 Z 中 的 两 个 不 同 的 串 x 和 y 使 得 x* 是 y 的 前 级 


例 6.18 ” 例 6.16 中 的 语言 Lwew 就 具有 前 绥 性 质 。 也 就 是 说 ， 不 可 能 存在 这 样 的 两 个 串 wcwa 
和 xcx 使 得 其 中 的 一 个 是 另 一 个 的 前 缀 ， 除 非 二 者 是 相同 的 串 。 为 了 说 明 为 什么 ， 假 设 wcws 是 
xcx* 的 前 级 ， 并 且 w 取 x。 那 么 w 一 定 比 x 短 。 因 此 ， 考 虑 wcws 中 c 所 处 在 的 位 置 ， 在 xcx* 中 该 位 置 
上 的 符号 一 定 是 0 或 1， 这 个 位 置 在 第 一 个 r+ 上 。 这 一 点 和 wcw* 是 xcxe 的 前 级 的 假设 相 刻 盾 。 

男 一 方面 ， 存 在 很 简单 的 不 满足 前 级 性 质 的 语言 。 考 虑 {0}*， 即 所 有 只 包含 0 的 串 的 集合 ， 
很 显然 ， 存 在 这 个 语言 中 的 两 个 串 使 得 其 中 的 二 个 是 另 一 个 的 前 缀 ， 因 此 该 语言 没有 前 绥 性 质 


ww 


事实 上 ， 对 于 该 语言 中 的 任何 两 个 串 ， 甚 中 的 一 个 都 是 另 一 个 的 前 缀 ， 虽 然 这 个 条 件 比 我 们 需 
要 建立 的 前 级 性质 所 不 成 立 的 条 件 要 强 。 口 


注意 ， 上 述 语 言 {0}’ 是 一 个 正则 语言 。 因 此 ， 其 至 连任 何 正 则 语言 都 是 某 个 DPDA P 的 N(P) 
都 不 成 立 。 我 们 把 下 面 的 关系 留 作 练 习 : 


定理 6.19 语言 L 是 某 个 DPDA P 的 N(P) 当 且 仅 当 L 有 前 绿 性 质 且 L 是 某 个 DPDA P' 的 L(P”)。 口 
6.4.3 DPDA 与 上 下 文 无 关 语 言 


我 们 已 经 看 到 DPDA 可 以 接受 不 是 正则 的 语言 ， 例 如 Low,。 要 证 明 该 语言 不 是 正则 的 ， 只 需 
要 反 过 来 假设 它 是 ， 然 后 使 用 泵 引 理 即 可 。 如 果 x 是 泵 引 理 中 的 常数 ， 那 么 考虑 串 w = 0rc0r"， 它 
属于 Lwew。 然 而 ， 当 我 们 “ 泵 出 ”该 串 的 时 候 ， 它 的 第 一 组 0 的 长 度 一 定 会 改变 ， 因 此 在 Low 中 
得 到 的 串 的 “中 心 ”标记 并 不 在 中 心 。 因 为 这 些 串 并 不 属于 Lwiwy， 所 以 得 到 了 了 矛盾， 也 就 得 出 
结论 : Low 不 是 正则 的 。 

另 一 方面 ， 也 有 CEFL (例如 Lm,) 不 是 任何 DPDA P 的 L(P)。 形 式 化 的 证 明 比 较 复杂 ， 但 是 
直观 上 是 很 显然 的 。 如 果 P 是 一 个 接受 Co 的 DPDA， 那 么 给 定 一 个 0 的 序列 ，P -一定 要 把 它们 存 
在 堆栈 上 ， 或 者 做 一 些 等 价 的 事情 来 记 住 这 些 0 的 数目 。 例 如 ， 它 可 以 每 看 见 两 个 0 就 在 堆栈 上 
存 下 一 个 X， 并 且 使 用 它 的 状态 来 记 住 当前 的 数目 是 奇数 还 是 偶数 ， 

假设 P 看 见 " 个 0 然后 看 到 了 110"， 那 么 它 必须 要 验证 11 后 面 确实 有 "个 0， 然 而 要 做 到 这 件 事 
情 它 一 定 要 从 它 的 堆栈 上 弹出 前 面 存储 的 东西 。。 至 此 ，P 已 经 见 到 了 0"110*， 如 果 接 下 来 它 再 
看 到 同样 的 一 个 串 ， 它 必须 接受 ， 因 为 整个 完整 的 输入 串 是 ww 形式 的 ， 其 中 w = 0"110*， 但 是 ， 
如 果 它 看 到 的 串 是 0"110"， 而 且 记 夫 a， 那 么 P 一 定 不 接受 。 但 是 由 于 它 的 栈 已 经 是 空 的 ， 因 此 它 
无 法 记 住 整数 n 是 多 少 ， 因 此 就 无 法 正确 地 识别 Lw,。 我 们 的 结论 是 


“DPDA 以 赂 结 状态 方式 接受 的 语言 真 包含 正则 语言 ， 但 真 包含 于 CFL。 
6.4.4 DPDA 与 歧义 文法 

本 市 研究 DPDA 的 另 一 个 性 质 ， 它 们 接受 的 语言 全 都 有 无 歧义 文法 。 不 幸 的 是 ，DPDA 语 言 
并 不 恰好 等 于 CFL 的 非 固有 歧义 的 子 集 。 例 如 ，Lwwr 具 有 无 歧义 文法 

S0011isile 

然而 它 并 不 是 DPDA 语 言 。 下 面 的 定理 涵盖 了 以 上 的 讨论 。 

定理 6.20 如 果 对 于 某 个 DPDA P 有 L= NN(P)， 则 IL 具 有 无 歧义 的 上 下 文 无 关 文 法 。 

证 明 定理 6.14 中 的 构造 过 程 能 够 生成 无 歧义 的 CFG G， 只 要 它 所 应 用 的 PDA 是 确定 型 的 。 


首先 回忆 定理 5.29， 为 了 证 明 G 是 无 歧义 的 ， 只 要 该 文法 有 惟一 的 最 左 推导 就 足够 了 。 
假设 P 以 空 栈 方式 接受 串 w。 那 么 它 一 定 以 惟一 的 移动 序列 来 完成 接受 过 程 ， 因 为 它 是 确定 


昌 这 句 话 正 是 整个 证 明 的 赁 直觉 需要 (比较 困难 的 ) 形式 化 证 明 的 部 分 ，P 可 能 存在 其 他 能 够 比较 两 块 相同 个 
数 的 0 的 途径 吗 ? 
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型 的 ， 并 且 一 旦 它 的 堆栈 为 空 它 就 不 能 继续 移动 了 。 已 知 这 些 移动 序列 的 话 ， 我 们 就 能 够 确定 
在 G 推 导出 w 的 最 左 推导 中 每 一 步 所 选择 的 产生 式 。 导 致使 用 该 产生 式 的 P 的 规则 总 是 惟一 的 。 
然而 ， 一 条 P 的 规则 ， 比 如 6(gq, a, 及 = {(r, 六 六 … 了 YD} 可 能 导致 多 条 G 的 产生 式 ， 因 为 在 反映 弹出 
态 , 7,…, Yi-! 中 的 每 个 之 后 P 的 状态 的 位 置 可 以 有 不 同 的 状态 。 因 为 P 是 确定 型 的 ， 所 以 只 有 这 
些 选择 序列 中 的 一 个 能 和 P 实 际 的 动作 相 一 致 ， 因 此 只 有 这 些 产生 式 中 的 一 个 能 够 实际 上 导致 w 
的 推导 。 由 


但 是 ， 我 们 可 以 证 明 更 多 的 东西 : 即使 是 那些 DPDA 以 终结 状态 方式 接受 的 语言 也 有 无 歧义 
的 文法 。 由 于 我 们 只 知道 怎样 直接 从 以 空 栈 方式 接受 的 PDA 来 构造 文法 ， 因 此 需要 把 相关 的 语 
言 变 为 具有 前 组 性 质 的 ， 并 且 修 改 所 得 的 文法 以 产生 原来 的 语言 。 我 们 通过 使 用 一 个 “结束 标 
记 ”符号 来 做 到 这 一 点 。 


定理 6.21 如 果 对 于 某 个 DPDA P 有 工 = COP)， 则 Z 有 无 歧义 的 CFG。 

证 明 令 $ 为 “结束 标记 ”符号 ， 并且 它 不 在 L 的 串 中 出 现 ， 再 令 L' = 磺 。 也 就 是 说 , 碾 的 串 
由 Z 的 串 分 别 在 未 尾 添上 符号 $ 构 成 。 显 然 忆 具有 前 绥 性 质 ， 并 且 根据 定理 6.19， 对 于 某 个 DPDA 
PP 有 乙 = MP)。 ”根据 定理 6.20， 存 在 一 个 无 歧义 文法 G'，G' 能 够 产生 语言 MP)， 也 就 是 亏 。 

现在 来 从 G' 构造 文法 G， 满 足 L(G) = 工 。 为 了 达到 这 个 目的 ， 我 们 只 需要 从 串 中 去 掉 结 束 标 
记 $。 因 而 ， 把 $ 看 作 C 的 一 个 变 元 ， 同 时 引入 产生 式 $ 一 s， 否则 ，G' 和 G 的 产生 式 相 同 。 由 于 
LG)=L', 所 LLG)=L, 

我 们 断言 G 是 无 歧义 的 。 为 了 证 明 这 点 ，G 中 的 最 左 推导 恰好 也 是 G' 中 的 最 左 推导 ， 除 了 在 
G 中 的 推导 的 最 后 一 步 是 用 e 来 替换 $。 因 此 ， 如 果 一 个 终结 符 串 w 在 G 中 有 两 个 最 左 推导 ， 那 么 
w$ 束 在 G' 中 也 有 两 个 最 左 推导 。 因 为 已 知 G' 是 无 歧义 的 ， 所 以 G 也 是 。 四 


6.4.5 习题 


习题 6.4.1 ”对 于 下 面 的 每 一 个 PDA， 说 明 它 是 否 是 确定 型 的 。 或 者 证 明 它 满 足 DPDA 的 定 
义 ， 或 者 找到 它 违反 的 规则 。 
a) 例 6.2 中 的 PDA。 
*# b) 习题 6.1.1 中 的 PDA。 
c) 习题 6.3.3 中 的 PDA 。 
习题 6.4.2 给 出 接受 下 列 语言 的 确定 型 下 推 自动 机 : 
a) {0*l™|ln<m}., 
b) {0"121 7 人 7 }。 
c) {O"l"0*17m 和 mm 为 任意 数 }。 
习题 6.4.3 ”我们 可 以 分 三 部 分 来 证 明定 理 6.19. 


日 ”定理 6.19 的 证 明 在 习题 6.4.3 中 ,但 是 这 里 可 以 简单 地 看 看 怎样 从 P 构 造 P'。 增 加 一 个 新 的 状态 9， 一 旦 P 处 在 一 
个 接受 状态 并 且 下 一 个 输入 为 $4 时 就 进入 4。 在 状态 9 时 ，P 强 出 它 的 堆栈 中 的 所 有 符号 。 同 样 ，P 需 要 它 自 
己 的 栈 底 标记 来 避免 在 它 模拟 P 的 时 候 偶然 清空 它 的 堆栈 。 
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*a) 证 明 : 如 果 对 于 某 个 DPDA P 有 L= WP)， 则 工具 有 前 缀 性 质 。 

! b) 证 明 : 如 果 对 于 某 个 DPDA P 有 L = N(P)， 则 存在 DPDA P' 满 足 L =L(P)。 
*1 c) 证 明 ; 如 果 L 具 有 前 缀 性 质 ， 并 且 对 某 个 DPDA P' 是 LP)， 则 存在 DPDA P 满足 L=N(P)。 
!! 习题 6.4.4 证 明 : 语言 
三 人 克 了 吉本 过 埠 


是 不 被 任何 DPDA 接 受 的 上 下 文 无 关 语 言 。 提 示 : 证 明 一 定 存在 两 个 n 值 不 同 的 0"1" 形 式 的 串 ， 
比如 ny 和 nn2， 它 们 能 够 导致 一 个 L 的 假想 的 DPDA 在 读 入 了 这 两 个 串 之 后 进入 相同 的 ID。 直 观 上 ， 
该 DPDA 为 了 检查 是 否 看 到 了 同样 个 数 的 1， 它 一 定 要 把 在 读 入 0 时 所 保存 在 堆栈 中 的 几乎 所 有 信 
明 擦 除 。 因 此 ， 该 DPDA 在 看 到 接 下 来 的 mi 个 1 或 者 ;个 1 时 就 无 法 判断 是 否 应 该 接受 。 
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“下 推 自动 机 : PDA 和 是 带 有 堆栈 的 非 确定 型 有 穷 自 动机 ， 堆 栈 可 以 用 于 保存 任意 长 度 的 串 。 
堆栈 只 能 在 它 的 顶部 读 取 和 修改 。 

“下 推 自动 机 的 移动 : PDA 根 据 它 的 当前 状态 、 下 一 个 输入 符号 和 处 在 它 栈 顶 的 符号 来 选择 
下 一 步 的 移动 。 它 也 可 以 不 考虑 输入 符号 来 选择 下 一 步 的 移动 ， 同 时 也 不 消耗 输入 符号 。 
由 于 非 确 定性 ，PDA 可 以 有 有 限 种 移动 的 选择 ， 每 个 选择 包括 一 个 新 的 状态 和 一 个 堆栈 符 
号 串 ， 后 者 是 用 来 替换 当前 栈 顶 符号 的 。 

“下 推 自动 机 接受 : PDA 有 两 种 方式 来 表示 接受 。 一 种 是 通过 进入 接受 状态 ， 另 一 种 是 通过 
清空 它 的 堆栈 。 这 两 种 方式 是 等 价 的 ， 这 种 等 价 性 是 指 以 一 种 方式 接受 的 任何 语言 都 可 以 
(被 某 个 其 他 的 PDA) 以 另 一 种 方式 接受 。 : 
。 皮 时 描述 : 我 们 用 包含 状态 、 剩 余 的 输入 和 堆栈 内 容 的 ID 来 描述 PDA 的 “当前 的 情形 ”。 
ID 之 间 的 转移 函数 上 代表 PDA 的 一 步 移动 。 

“下 推 自动 机 和 文法 : PDA 以 终结 状态 方式 或 者 以 空 栈 方式 接受 的 语言 正 是 上 下 文 无 关 语 


ma 
二 一 人 


。 确 定型 下 推 自动 机 : 如 果 对 于 一 个 给 定 的 状态 、 输 入 符号 (包括 s) 和 堆栈 符号 ， 一 个 

PDA 从 不 需要 做 移动 的 选择 ， 则 我 们 称 这 个 PDA 是 确定 型 的 。 另 外 ， 它 也 不 需要 在 是 使 用 
输入 移动 还 是 使 用 se 移动 之 间 做 选择 。 

。 确 定型 下 推 自动 机 接受 : 两 种 接受 方式 (终结 状态 方式 和 空 栈 方式 ) 对 DPDA 来 说 不 是 相 
同 的 。 更 确切 地 说 ， 以 空 栈 方式 接受 的 语言 正 是 以 终结 状态 方式 接受 且 有 前 组 性 质 的 语言 ， 
前 级 性 质 是 指 : 语言 中 的 任何 串 都 不 是 语言 中 其 他 串 的 前 绥 。 

。DPDA 接 受 的 语言 所 有 正则 语言 都 被 DPDA (以 终结 状态 方式 ) 接受 ， 而 且 存在 被 DPDA 
接受 的 非 正 则 的 语言 。DPDA 语 言 是 上 下 文 无 关 语言 ， 而 且 事实 上 是 拥有 无 歧义 CFG 的 语 
言 。 因 此 ，DPDA 语 言 是 严格 位 于 正则 语言 和 上 下 文 无 关 语 言 之 间 的 。 


6.6 参考 文献 
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下 文 无 关 语 言 之 间 的 等 价 性 也 是 独立 发 现 的 结果 ， 它 首次 出 现在 1961 年 N. Chomsky 在 MIT 的 技 
术 报 告 中 ,但 是 被 Evey[1] 首 次 发 表 。 

确定 型 PDA 是 由 Fischer[2] 和 Schutzenberger[5] 首 次 提出 的 。 后 来 它 作为 语法 分 析 器 的 模型 从 
而 拥有 了 很 大 的 意义 。 值 得 一 提 的 是 ，[3] 提 出 了 “LR( 有 ) 文 法 ”， 一 个 恰好 产生 DPDA 语 言 的 CFG 
的 子 类 。 后 来 LR(R) 文 法 成 为 了 YACC 的 基础 ，YACC 是 5.32 节 中 讨论 的 语法 分 析 器 的 生成 工具 。 
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第 7 章 上 下 广 无 关 语 言 的 性 质 


本 章 将 要 通过 学 习 一 些 上 下 文 无 关 语 言 的 性 质 来 完成 上 下 文 无 关 语言 的 学 习 。 我 们 的 任务 
首先 是 简化 上 下 文 无 关 文 法 ， 这 些 简化 使 我 们 能 够 更 加 容易 地 证 明 一 些 关 于 CEFL 的 事实 。 其 原 
因 是 可 以 断言 : 如 果 某 个 语言 是 CFL， 那 么 它 一 定 具 有 某 种 特殊 形式 的 文法 。 

然后 ， 证 明 CFL 的 “ 泵 引 理 "。 这 个 定理 和 关于 正则 语言 的 定理 4.1 异 曲 同 工 ， 只 不 过 该 定理 
是 用 来 证 明 一 个 语言 不 是 上 下 文 无 关 的 。 接 着 考虑 一 下 在 第 4 章 中 介绍 的 正则 语言 的 那 种 类 型 的 
一 些 性 质 : 封闭 性 和 判定 性 质 。 本 章 将 会 看 到 有 一 些 (但 不 是 全 部 ) 正则 语言 有 的 封闭 性 CFL 
也 有 。 同 样 ， 有 些 关 于 CFL 的 问题 也 可 以 用 算法 来 判定 ， 而 且 这 些 算法 只 是 把 对 正则 语言 的 测 
试 方法 推广 了 ， 但 起 也 存在 茶 些 我 们 无 法 回答 的 关于 CFL 的 问题 。 


7.1 上 下 文 无 天 文法 的 范式 


本 证 的 目标 是 证 明 任何 CFL (不 包括 e) 都 能 用 只 有 A 一 8C 或 者 4 一 a 形式 产生 式 的 CFG 产 生 ， 
其 中 4, B 和 C 是 变 元 ， 而 a 是 终结 符 。 这 种 形式 称 为 乔 姆 斯 基 范 式 。 为 了 得 到 这 种 形式 的 CFG， 
我 们 需要 做 很 多 初步 的 简化 ， 而 这 些 简 化 方法 本 身 在 很 多 方面 都 很 有 用 : 
1. 我 们 必须 去 除 无 用 符号 。 所 谓 无 用 符号 ， 是 指 不 出 现在 任何 由 开始 符号 推导 出 一 个 终结 
符 串 的 过 程 中 的 变 元 和 终结 符 。 

2. 我 们 必须 去 除 e 产 生 式 。 所 谓 e 产 生 式 ， 是 指 A 一 e 形 式 的 产生 式 ， 其 中 A 是 变 元 。 

3. 我 们 必须 去 除 单 位 产生 式 。 所 谓 单位 产生 式 ， 是 指 4 一 B 形 式 的 产生 式 ， 其 中 4 和 B 式 是 
7。 


7.1.1 去 除 无 用 的 符号 


如 果 存 在 某 个 S 一 aXB8 一 mw 形式 的 推导 ,其 中 mw 属于 T*, 我 们 说 对 于 一 个 文法 G = (VT,P, 5)， 
符号 X 是 有 用 的 。 注 意 ，X 可 以 在 V 或 者 7 中 ， 而 名 型 wXB 可 能 是 推导 中 的 第 一 个 或 者 最 后 一 个 。 
如 果 X 不 是 有 用 的 ， 就 称 它 是 无 用 的 。 显 然 ， 从 一 个 文法 中 去 除 无 用 的 符号 并 不 会 改变 该 文法 产 
生 的 语言 ， 因 此 我 们 可 以 尽量 检测 和 去 除 所 有 的 无 用 符号 。 

我 们 去 除 无 用 符号 的 方法 是 通过 识别 一 个 有 用 符号 一 定 应 该 能 做 的 两 件 事 ， 

1. 如 果 对 于 某 个 终结 符 串 wy 有 X 一 w ， 我 们 称 X 是 产生 的 。 注 意 ， 任 何 终结 符 都 是 产生 的 ， 

因为 w 可 以 为 该 终结 符 本 身 ， 这 样 就 只 需要 0 步 推导 。 

2. 如 果 对 于 某 个 wx 和 有 5 二 aXB ， 我 们 称 X 是 可 达 的 。 

显然 一 个 有 用 的 符号 一 定 是 产生 的 和 可 达 的 。 如 果 我 们 首先 去 除 不 是 产生 的 符号 ， 然 后 再 
从 剩余 的 文法 中 去 除 不 是 可 达 的 符号 ， 剩 下 的 符号 一 定 只 有 有 用 的 符号 了 ， 这 一 点 将 会 给 出 
证 明 。 
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例 7.1 考虑 文法 
S—ABla 
A—b 
除了 B 之 外 所 有 的 符号 都 是 产生 的 ，a 和 4b 产生 它们 自己 ; S$ 产生 a，A 产 上 生 b。 如 果 去 除 B， 我 们 一 
定 要 去 除 产 生 式 9 一 4B， 剩 下 的 文法 是 : 
S—a 
A—b 
现在 ,我们 发 现 只 有 S 和 a 是 从 S$ 可 达 的 。 去 除 A 和 4b 后 剩 下 的 产生 式 只 有 S 一 a。 只 有 该 产生 式 的 文 
法 的 语言 是 {4a}， 而 这 和 原来 的 文法 的 语言 相同 。 
注意 ， 如 果 先 检查 可 达 性 ， 我 们 会 发 现 文法 


S—ABla 

A—b 
的 所 有 符号 都 是 可 达 的。 如 果 接 着 因为 符号 B 不 是 产生 的 而 把 它 去 除 ， 那 么 得 到 的 文法 中 仍然 有 
无 用 的 符号 ， 特 别 地 ， 在 本 例 中 为 4 和 b。 口 


定理 7.2， 设 G = (W 7T, P, 9) 是 一 个 CFG， 并 且 假 设 KG) = 他， 也 就 是 说 ，G 产 生 至 少 一 个 串 。 
设 Gi = (Wi, mi, Pi, 9) 是 通过 下 面 的 步骤 获得 的 文法 : 
1. 首 先 去 除非 产生 符号 和 所 有 包含 一 个 或 多 个 这 些 符号 的 产生 式 。 设 Gy = (5 Ty, Py, 5) 是 
这 样 得 到 的 新 文法 。 注 意 ，5 一 定 是 产生 的 ， 因 为 假定 L(G) 至 少 有 一 个 串 ， 因 此 S 没 有 被 
去 除 。 \ 
2. 其 次 ， 去 除 文法 Gs 中 的 非 可 达 符 号 。 
则 Gi 中 没有 无 用 符号 ， 且 L(G1) = KGO)。 
证 明 ”假设 X 是 剩 下 的 符号 之 一 ， 也 就 是 说 ，X 属 于 ViUTI。 我 们 知道 对 于 7 中 的 某 个 w 
有 X 字 w 。 此 外 ， 从 Xx 推导 w 的 过 程 中 使 用 的 任何 符号 都 是 产生 的 ， 因 此 X 志 w 。 


因为 X 在 第 二 步 中 没有 被 去 除 ， 因此 我 们 也 知道 存在 ga 和 满足 5 之 aX6 。 更 进一步 地 说 ， 
每 个 在 该 推导 过 程 中 使 用 的 符号 都 是 可 达 的 ， 因 此 有 5 之 oaXB 。 

我 们 知道 cXp 中 的 每 个 符号 都 是 可 达 的 ， 并 且 我 们 也 知道 这 些 符号 都 属于 WU 所 以 它们 
中 的 每 一 个 在 G; 中 都 是 产生 的 。 某 个 终结 符 串 的 推导 (比如 OXB wy) 仅 包含 从 5S 可 达 的 符号 ， 
原因 是 它们 是 从 aXp 中 的 符号 可 达 的 。 因 此 ， 这 个 推导 也 是 Gi 中 的 推导 ， 即 : 


SaXB my 
由 此 得 出 结论 : X 在 G1 中 是 有 用 的 。 因 为 X 是 G1 中 的 任意 符号 ， 所 以 可 以 得 出 结论 : G1 中 没有 无 
用 符号 。 . 
最 后 一 个 细 市 是 必须 证 明 L(G1) = L(G)。 照 常 ， 为 了 证 明 两 个 集合 相同 ， 需 要 证 明 它 们 互相 
包含 。 
L(G1) CL(G): 由 于 只 从 G 中 去 除了 符号 和 产生 式 就 得 到 了 G1!， 因 此 得 出 L(G1) CL(G) 的 结论 。 
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L(G1) 2L(G): 必须 证 明 如 果 w 属 于 L(G)， 则 w 也 属于 L(G1)。 如 果 w 属 于 L(G)， 则 Sw 。 因 


为 该 推导 中 的 每 个 符号 都 是 可 达 的 和 产生 的 ， 因 此 它 也 是 G1 中 的 推导 。 也 就 是 说 ， Sw ， 因 
此 w 属 于 L(G'1)。 加 


7.1.2 计算 产生 符号 和 可 达 符 号 


还 剩 两 个 同 题 : 怎样 来 计算 一 个 文法 的 产生 符号 的 集合 ， 以 及 怎样 计算 一 个 文法 的 可 达 符 
号 的 集合 ?对 于 这 两 个 问题 ， 我 们 使 用 的 算法 尽 其 全 力 来 发 据 这 两 种 类 型 的 符号 。 本 节 将 会 证 
明 : 如 有 这 两 个 集合 的 正确 归纳 构造 过 程 无 法 发 现 一 个 符号 是 产生 的 或 者 是 可 达 的 ， 那 么 这 个 
符号 就 不 是 这 些 类 型 的 。 

设 G =(V,7T,P,5) 是 一 个 文法 。 为 了 计算 6G 的 产生 符号 ,实施 下 面 的 归纳 过 程 。 

基础 : 每 个 7 中 的 符号 都 显然 是 产生 的 ， 因 为 它 能 产生 它 本 身 。 

归纳 : 假设 有 一 个 产生 式 4 一 a， 并 且 a 中 的 符号 都 已 知 是 产生 的 了 ， 则 A 也 是 产生 的 。 注 意 ， 
这 条 规则 包括 c = e 的 情况 ， 所 有 以 作为 产生 式 体 的 变 元 当然 都 是 产生 的 。 


例 7.3 ”考虑 例 7.1 中 的 文法 。 根 据 基础 部 分 可 知 ，a 和 4b 都 是 产生 的 。 对 于 归纳 部 分 ， 由 产生 
式 4 一 b 得 出 4 是 产生 的 ， 再 根据 产生 式 S 一 a 得 出 S 是 产生 的 。 到 此 为 止 ， 整 个 归纳 过 程 结束 。 我 
们 无 法 使 用 产生 式 S 一 A4B， 因 为 并 不 知道 8 是 产生 的 。 因 而 ， 产 生 符 号 的 集合 为 {a, b, A, Sj}。 口 


定理 7.4 上 面 的 算法 找到 的 恰好 是 G 中 全 部 的 产生 符号 。 

证 明 ”对 于 一 个 方向 ,这 是 一 个 简单 的 把 符号 加 入 产生 符号 的 集合 (被 加 入 该 集合 的 符号 
确实 都 是 产生 符号 ) 的 顺序 上 的 归纳 。 这 部 分 的 证 明 留 给 读者 。 

对 于 另 一 个 方向 ， 假 设 X 是 一 个 产生 符号 ， 也 就 是 X 写 w。 我 们 根据 对 这 个 推导 过 程 的 长 度 
进行 归纳 来 证 明 一 定 能 找到 X 是 产生 的 。 

基础 : 零 步 的 情况 ， 则 X 是 终结 符 ， 因 此 在 基础 部 分 即 找到 

归纳 ， 如 果 该 推导 过 程 共 有 n 步 ， 其 中 n > 0 ， 则 X 是 一 个 变 元 。 设 该 推 导 为 X 二 a 之 w ,了 
就 是 说 , 第 一 个 使 用 的 产生 式 是 X 一 a。a 中 的 每 个 符号 都 推导 出 了 是 w 中 的 某 个 部 分 的 终结 符 帅 。 
根据 归纳 假设 可 知 ，a 中 的 每 个 符号 都 能 被 发 现 是 产生 的 。 访 算法 的 归纳 部 分 允许 我 们 用 产生 
式 X 一 a 来 推出 X 是 产生 的 。 口 


现在 来 考虑 能 找到 文法 G = (V, 7, P, 8) 的 可 达 符号 集合 的 归纳 算法 了 。 同 样 ， 可 以 证 明 只 要 
尽 全 力 去 发 现 可 达 符 号 ， 最 后 任何 没有 加 入 可 达 符 号 集合 的 符号 都 不 是 可 达 的 。 

基础 : 5 显然 是 可 达 的 。 

归纳 : 假设 我 们 已 经 发 现 某 个 变 元 4 是 可 达 的 。 则 对 于 所 有 以 4 为 头 的 产生 是 ， 所 有 该 产生 
式 体 中 的 符号 也 都 是 可 达 的 。 


例 7.5 ”再 一 次 从 例 7.1 中 的 文法 出 发 。 根 据 基 础 部 分 可 知 ，5 是 可 达 的 。 由 于 S$ 有 以 AB 和 a 为 
体 的 产生 式 ， 因 此 得 出 4, B 和 a 都 是 可 达 的 。B 没 有 产生 式 , 但 4 有 A 一 b。 因此 5 也 是 可 达 的 。 现 
在 ,没有 其 他 可 以 加 入 到 可 达 符 号 集合 中 的 符号 了 ， 因 此 最 后 该 集合 为 {5, 4, B, a,b}、 口 
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定理 7.6 上 面 的 算法 恰好 能 够 找到 G 中 所 有 的 可 达 符 号 。 
证 明 ”这 个 证 明 是 通过 使 用 和 定理 7.4 中 类 似 的 一 对 简单 的 归纳 法 完成 的 。 我 们 把 它 留 作 
练习 。 四 


7.1.3 去 除 e 产 生 式 


现在 来 证 明 e 产 生 式 虽 然 在 很 多 文法 设计 间 题 中 非常 方便 使 用 ,但 它 实 质 上 并 不 是 必需 的 。 
当然 如 果 没 有 一 个 以 e 为 体 的 产生 式 的 话 ， 一 个 文法 的 语言 中 是 无 法 有 空 串 的 。 因 此 ， 实 际 上 需 
要 证 明 的 是 : 如 果 语 言 L 有 一 个 CFG， 则 ZL 一 {e} 一 定 有 一 个 不 含 e 产 生 式 的 CFG。 如 果 e 不 属于 L， 
则 ZL 本 身 就 是 L 一 {e}， 因 此 LL 就 有 一 个 不 含 e 产 生 式 的 CFG，。 

我 们 的 策略 是 从 发 现 “ 可 空 的 ” 变 元 出 发 。 如 果 4 一 s 变 元 4 称 为 可 空 的 。 如 果 A 是 可 空 的 ， 
则 只 要 A 出 现在 产生 式 体 中 ， 比 如 8B 一 CAD，A 就 可 能 (也 可 能 不 ) 推导 出 s。 我 们 使 用 该 产生 式 
的 两 个 版 本 : 其 中 一 个 的 体 中 没有 4 (8 一 CD) ， 用 来 对 应 A 推导 出 的 情况 ， 另 一 个 有 A (8B 一 
CAD)。 然 而 ， 如 果 使 用 有 4 的 版 本 ， 则 不 允许 A 推导 出 。 这 个 证 明 不 成 问题 ， 因 为 只 不 过 去 除 
了 所 有 以 e 为 体 的 产生 式 ， 因 而 防止 了 任何 变 元 推导 出 e。 

设 G = (V, 7, P, 5) 是 一 个 CFG。 我 们 可 以 通过 使 用 下 面 的 迭代 算法 来 找到 所 有 G 的 可 空 符号 。 
下 面 将 会 证 明 除了 用 这 个 算法 找 出 的 符号 外 ， 再 没有 其 他 的 可 空 符号 。 

基础 : 如 果 A 一 e 是 一 个 G 的 产生 式 ， 则 A 是 可 空 的 。 

归纳 :如 果 存 在 产生 式 8 一 CiC，…Ct， 其 中 每 个 Ci 都 是 可 空 的 ， 则 B 是 可 空 的 。 注 意 ， 因 为 
每 个 C; 都 是 可 空 的 变 元 ， 所 以 只 需要 考虑 体 全 都 由 变 元 构成 的 产生 式 。 


定理 7.7 在 任何 文法 G 中 ， 上 面 的 算法 生成 的 恰好 是 全 部 的 可 空 符号 。 

证 明 该 定理 意味 着 “A 为 可 空 的 当 且 仅 当 该 算法 识别 4 是 可 空 的 "。 对 于 其 中 “ 当 ” 的 方向 ， 
只 要 发 现 一 点 即 可 : 根据 对 可 空 符号 发 现 的 顺序 进行 简单 的 归纳 可 知 ， 该 算法 发 现 的 可 空 符号 
确实 都 能 推导 出 es。 对 于 “ 仅 当 ”部 分 ,可 以 对 最 短 推导 A4=> 的 长 度 进行 归纳 。 

基础 : 一 步 的 情况 ， 则 4 一 :一 定 是 一 个 产生 式 ， 并 且 由 算法 的 基础 部 分 就 可 以 发 现 4。 

归纳 : 假设 4 一 s 有 n 步 ， 其 中 n>1， 则 第 一 步 一 定 是 如 下 形式 : 4=CCi-C 过 6 ,其 中 
每 个 Ci 都 能 用 少 于 n 步 的 序列 推导 出 。 根 据 归 纳 假设 可 知 ， 每 个 Ci 都 被 该 算法 发 现 为 可 空 的 。 
因而 ， 在 该 算法 的 归纳 步骤 中 由 产生 式 A 一 C1C2…Ci 可 以 发 现 4 是 可 空 的 。 口 


现在 给 出 不 含 e 产 生 式 的 文法 的 构造 方法 。 设 G = (V, T, P, 9 是 一 个 CEG。 确定 所 有 G 的 可 空 
符号 。 构 造 一 个 新 的 文法 G1 = (V 7, Pi, 5)， 其 中 产生 式 的 集合 Pi 的 方法 确定 如 下 。 

对 于 每 个 P 的 产生 式 A 一 XX…X%， 其 中 k 二 1， 假定 k 个 X 中 有 m 为 可 空 符号 ， 则 新 的 文法 G1 
有 2” 条 这 个 产生 式 的 变 体 ， 其 中 每 个 可 空 的 X; 都 有 存在 和 不 存在 的 各 种 组 合 。 有 一 个 例外 情况 : 
如 果 m = Kk， 也 就 是 说 ， 所 有 的 符号 都 是 可 空 的 ， 那 么 并 不 包括 所 有 的 和 都 不 存在 的 情况 。 也 注 
意 到 : 如 果 P 中 有 一 个 产生 式 是 A 一 e 形 式 的 ， 则 不 把 这 个 产生 式 放 在 Pi 中 。 


例 7.8 考虑 文法 
S—AB 


A—aAAle 
B—bBBl|eE 


首先 ， 找 出 所 有 的 可 空 符号 。 因 为 4 和 B 有 以 为 体 的 产生 式 ， 所 以 可 以 直接 判断 出 它们 是 可 
空 的 。 然 后 ， 因 为 产生 式 S 一 AB 的 体 中 的 符号 都 是 可 空 的 ， 因 此 5 也 是 可 空 的 。 因 而 ， 这 三 个 变 
元 都 是 可 空 的 。 

现在 ， 构 造 文法 G1 的 产生 式 。 首 先 考 虑 $ 一 A4B。 这 个 产生 式 的 体 中 的 所 有 符号 都 是 可 空 的 ， 
因此 有 四 种 A 和 B 相 互 独立 地 存在 或 不 存在 的 组 合 。 然 而 ， 其 中 4 和 8B 都 不 存在 的 组 合 是 不 允许 的 ， 
因此 得 到 了 三 个 产生 式 : 

一 4B141B 


接着 ， 考 虑 产生 式 4 一 a44。 其 中 第 二 个 和 第 三 个 位 置 上 的 符号 是 可 空 的 ， 因 此 这 次 也 有 四 
种 存在 /不 存在 组 合 。 不 过 这 次 的 四 种 组 合 都 是 允许 的 ， 原 因 是 不 可 空 符号 4 总 是 存在 的 。 这 四 
种 组 合 产生 了 产生 式 : 
4 一 Ga441ca41c41c 


注意 ， 中 间 的 两 个 产生 式 是 相同 的 ， 原 因 是 如 果 我 们 决定 去 掉 其 中 一 个 的 话 ， 不 论 去 掉 哪 
个 4 结果 都 一 样 。 因 此 ， 最 终 的 文法 G, 中 只 有 三 个 4 的 产生 式 。 
同样 地 ，G1 中 B 的 产生 式 产生 : 
B—bBBIbBIb 
G 的 两 个 e 产 生 式 在 Gi 中 什么 都 没 产 生 。 因 此 最 后 G1 的 产生 式 为 
S—ABIAIB 
A—aAAlaAla 
B—bBBIbBIb 站 


下 面 要 通过 下 列 方法 得 出 去 除 s 产 生 式 这 部 分 内 容 的 结论 : 证 明 除了 如 果 G 的 语言 中 有 的 
话 将 会 把 它 去 挥 之 外 ， 上 面 的 构造 过 程 并 不 改变 相应 的 语言 。 因 为 该 构造 过 程 明显 地 去 除了 e 
产生 式 ， 因 此 将 仅 给 出 如 下 命题 的 完整 证 明 : 对 于 每 个 CFG G， 存 在 一 个 不 含 e 产 生 式 的 文法 
Gi 满足 : 
LG)=1(0)—{e} 


定理 7.9 如 果 文 法 Gl 是 用 上 面 去 除 e 产 生 式 的 构造 方法 从 文法 G 构 造 而 来 的 ， 则 L(G1) = L(G) 
一 

证 明 ”我 们 必须 证 明 : 如 果 w 冯 E， 则 w 属 于 L(G1) 当 且 仅 当 w 属 于 L(G)。 我 们 经 常会 发 现 , 证 
明 一 个 更 加 一 般 的 结论 反而 更 容易 。 在 这 种 情况 下 ， 我 们 需要 讨论 每 个 变 元 产生 的 终结 符 串 ， 
即使 实际 上 只 需要 考虑 由 开始 符号 $ 产 生 什 么 即 可 。 因 而 ， 将 要 证 明 ， 


。 4 之 w 当 上 且 仅 当 A 僵 w 上 且 w 关 e。 
两 个 方向 的 证 明 都 是 对 推导 的 长 度 进行 归纳 。 


[| 
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( 仅 当 ) 假设 4 芝 w， 则 显然 有 we， 原 因 是 Gl 没有 产生 式 。 我 们 必须 对 推导 A 过 w 的 长 度 


进行 归纳 来 完成 证 明 。 


基础 : 一 步 的 情况 ， 此 时 Gi 中 一 定 有 产生 式 4 一 w。Ci 的 构造 过 程 告诉 我 们 G 中 一 定 有 产生 
式 4 一 x， 使 得 o 是 由 w 中 间 插 入 零 个 或 多 个 可 空 变 元 构成 的 。 因 此 在 G 中 有 4 二 a 二 w ， 其 中 第 
一 步 之 后 的 所 有 步 又 是 从 所 有 a 中 的 可 空 变 元 推导 出 s。 

归纳 : 假设 该 推导 有 n > 1 步 ， 则 该 推导 一 定 是 4 二 头 X,…X, 过 w 形 式 的 。 其 中 使 用 的 第 一 
个 产生 式 一 定 来 自 4 一 也 六 …Yw， 其 中 这 些 7 依次 是 前 面 的 那些 Xx 中 间 插 入 零 个 或 多 个 可 空 变 元 。 
我 们 也 把 w 打 断 为 wiw2…wi， 并 且 对 于 i = 1, 2， si 人 XW 。 如 果 X; 是 终结 符 ， 则 w; = X;， 如 
果 为 是 变 元 ， 则 推导 % 世 w 的 步 数 少 于 n 步 。 由 归纳 假设 可 知 马 之 ww 。 

现在 ， 构 造 G 中 相应 的 推导 如 下 : 

A 地 YE Ww Ny 

第 一 步 使 用 的 产生 式 是 A 一 Yi]…Y。， 已 知 它 是 G 中 的 产生 式 。 下 一 组 推导 步 难 表示 从 每 个 不 在 
蕊 中 的 万 推导 出 s。 最 后 一 组 推导 步骤 表示 从 总 推导 出 w， 而 这 由 归纳 假设 可 知 。 

( 当 ) 假设 4 之 w 且 w 关 se。 对 推导 4 全 风 的 长 度 n 进 行 归纳 来 完成 证 明 : 

基础 : 一 步 的 情况 ， 此 时 4 一 w 一 定 是 G 中 的 产生 式 。 因 为 w 取 8， 这 个 产生 式 也 是 G1 中 的 产 
竺 六 ,于 肝 AWw， 

归纳 : 假设 该 推导 有 n > 1 步 ， 则 该 推导 一 定 是 4 一 了 … 丈 全 mw 形式 的 。 把 w 分 解 为 wiw， 
Mr 并 且 对 于 i = …,m 有 一 o 设 X1, XX;， …, 处 是 那些 满足 wj 关 的 六 。 因为 w 友 &， 所 以 
一 定 有 Kk 之 1。 因此 ，A 一 XX…X% 一 定 是 G1 中 的 产生 式 ，。 

我 们 断言 一 定 有 包 为 …X 字 w， 原 因 是 只 有 那些 不 属于 X 的 六 才 被 用 于 推导 出 e， 而 且 它 们 
对 于 推导 出 w 并 没有 贡献 。 由 于 每 个 推导 了 过 w, 少 于 n 步 ， 因 此 可 以 由 归纳 假设 得 出 ， 如 果 w, 
Ee， 则 多 节 W 。 因 此 有 4 过 马刀 … 也 之 w。 

现在 完成 整个 证 明 如 下 : 我 们 知道 w 属 于 L(G1) 当 且 仅 当 $ 之 w ， 在 上 式 中 令 4 = 5， 可 知 w 属 
于 Z(G) 当 且 仅 当 S>wEwze, 也 束 是 说 ，w 属 于 L(G1) 当 且 仅 当 w 属 于 L(G) 且 w 关 e。 口 
7.1.4 去 除 单位 产生 式 


单位 产生 式 是 4 一 B 形 式 的 产生 式 ， 其 中 4 和 B 都 是 变 元 。 这 些 产 生 式 可 能 是 有 用 的 。 例 如 ， 
在 例 5.27 中 ， 我 们 已 经 看 到 通过 使 用 单位 产生 式 E 一 T 和 7T 一 F 可 为 简单 的 算术 表达 式 构造 一 个 无 
上 义 的 文法 : 
I=albllallbl10111 
下 一 了 | (已 ) 


上 下 艾 无 类 语言 的 性 所 183 


4 
E—=TIE+T 
然而 ， 单 位 产生 式 使 某 些 证 明 变 得 复杂 ， 而 且 它 们 也 会 给 推导 过 程 引 入 本 来 在 技术 上 不 需 
要 的 步骤 。 例 如 ， 我 们 可 在 产生 式 E 一 了 7 中 用 两 种 方式 来 扩展 7 一 一 用 两 个 产生 式 E 一 F17 * F 来 替 
代 它 。 这 些 改变 仍然 没有 去 除 单位 产生 式 ， 因 为 我 们 在 文法 中 引入 了 本 来 没有 的 单位 产生 式 E 一 
F。 进 一 步 用 两 个 F 的 产生 式 扩 展 E 一 F 可 以 得 到 E 一 11 (2)ITxF， 我 们 还 是 有 一 个 单位 产生 式 E 一 7。 
但 是 如 果 用 所 有 的 六 种 方式 来 扩展 7? 的话， 我 们 将 会 得 到 
Ealbllallbl10I11I(BDIT#FIE+T 


现在 E 的 单位 产生 式 就 没 了 。 注 意 E 一 a 不 是 单位 产生 式 ， 因 为 体 中 单个 的 符号 是 终结 符 ， 而 
不 是 单位 产生 式 定义 中 所 需 的 变 元 。 

上 面 介绍 的 技术 一 扩展 单位 产生 式 直 到 它们 消失 一 一 经 常 可 行 。 然 而 ， 如 果 存 在 单位 产生 
式 环 (比如 A 一 8，B 一 C，C 一 A) 则 它 可 能 会 失败 。 保 证 能 够 可 行 的 技术 是 ， 首先 找到 所 有 满 
足 如 下 条 件 的 变 元 对 A 和 B: 只 用 了 一 系列 的 单位 产生 式 使 得 A 二 B。 注 意 ， 即 使 使 用 非 单位 产 
生 式 也 可 能 有 4 二 8B， 例 如 ， 使 用 产生 式 A4 一 BC 和 C 一 s。 

一 旦 我 们 确定 了 所 有 的 这 种 对 ， 就 可 以 用 二 个 直接 从 A 开始 使 用 了 非 单位 产生 式 B, 一 a 的 产 
生 式 4 一 cx 来 替换 任何 推导 步骤 序列 4 二 B 二 B, 一 … 二 B= 二 a 。 首 先 ， 下 面 是 一 个 归纳 的 构 
造 过 程 ， 它 能 够 构造 出 只 使 用 了 单位 产生 式 满足 A 过 8 的 对 (4, B)。 这 样 的 对 被 称 为 单位 对 。 

基础 : 对 于 任何 变 元 4，(4, 4) 是 单位 对 。 也 就 是 说 ， A 二 4 为 零 步 的 推导 。 

归纳 : 假设 已 知 确定 (4, 8) 是 单位 对 ， 而 且 B 一 C 是 产生 式 ， 其 中 C 是 变 元 ， 则 (4, CO) 是 单 


例 7.10 考虑 例 5.27 中 的 表达 式 文法 ， 我 们 在 上 面 重新 构造 了 它 。 基 础 部 分 给 出 了 以 下 几 个 
单位 对 :(E, 情 , (7, 也 ),(F, 了 和 (1,。 对 于 归纳 部 分 ， 我 们 有 如 下 推论 : 

1.(E,E) 和 产生 式 E 一 7 得 出 单位 对 (E, 7)。 

2.(E, 了 和 产生 式 T 一 F 得 出 单位 对 (E, FF)。 

3.(E, 了 和 产生 式 F 一 /得 出 单位 对 (E, n。 

4. (7, 了 DD 和 产生 式 T 一 F 得 出 单位 对 (7, )。 

5. (7T, 也 和 产生 式 F 一 /得 出 单位 对 (7T, 几 。 

6.(F, 也 和 产生 式 F 一 1 得 出 单位 对 (F, 站。 
再 没有 其 他 能 推出 的 单位 对 了 ， 事 实 上 这 10 对 代表 了 所 有 只 使 用 单位 产生 式 的 推导 。 口 


至 此 ， 开 发 的 模式 也 应 该 很 熟悉 了 。 对 于 我 们 提出 的 算法 能 够 恰好 得 出 所 有 我 们 想 要 的 单 
位 对 有 一 个 简单 的 证 明 。 然 后 ， 我 们 用 这 些 对 来 从 一 个 文法 中 去 除 单位 产生 式 ， 并 且 证 明 这 两 
个 文法 的 语言 是 相同 的 。 


定理 7.11 以 上 的 算法 恰好 能 够 发 现 CFG G 的 所 有 单位 对 。 
证 明 ”对 于 一 个 方向 ， 很 容易 对 发 现 对 的 顺序 进行 归纳 ， 即 如 果 发 现 (4， B) 是 一 个 单位 对 ， 


LE 
©O 


WII 


则 A=B 是 只 用 单位 产生 式 的 推导 。 这 部 分 的 证 明 留 给 读者 。 


对 于 另 一 个 方向 ,假设 4 全 3 是 只 用 单位 产生 式 的 推导 。 我 们 可 以 通过 对 发 现 对 (4, B) 的 扒 
导 的 长 度 进行 进行 归纳 来 证 明 。 

基础 : 零 步 的 情况 ， 此 时 A = B， 并 且 对 (4, B8) 由 基础 得 出 。 

归纳 : 假设 4 二 8 使 用 n 步 ， 其 中 n > 0， 其 中 的 每 一 步 都 使 用 的 是 单位 产生 式 。 则 该 推导 的 
形式 如 下 : 


A 0 
推导 4 一 C 有 n 一 1 步 ， 因 此 由 归纳 假设 可 以 发 现 对 (4, C)。 接 着 由 算法 的 归纳 部 分 可 以 对 (4， 
C) 和 产生 式 C 一 B 得 出 对 (A, B)。 口 


为 了 去 除 单位 产生 式 ， 我 们 进行 如 下 操作 : 给 定 一 个 CFG G = (V, 7T, P, 9)， 构 造 CFG G1 = 
(VT 六 
1. 找到 G 的 所 有 单位 对 。 
2. 对 于 每 个 单位 对 (4, B)， 把 所 有 的 产生 式 4 一 a 加 入 P1， 其 中 8B 一 a 是 P 中 的 非 单位 产生 式 。 
注意 ， 可 能 有 A = B， 这 样 ，P1 包 含 P 中 所 有 的 非 单位 产生 式 。 


例 7.12 ”让 我 们 来 继续 例 7.10， 它 完成 了 例 5.27 中 表达 式 文法 的 如 上 构造 过 程 的 第 (1) 步 。 
7-1 给 出 了 该 算法 的 第 (2) 步 ， 共 中 我 们 构造 的 新 的 产生 。 ， pe 

式 的 集合 中 的 产生 式 的 头 为 对 中 的 第 一 个 变 元 ， 而 它 TF 

体 为 对 中 第 二 个 变 元 的 非 单位 产生 式 的 体 。 (B,T) | ET*F 


最 后 一 步 是 从 图 7-1 中 的 文法 中 去 除 单位 产生 式 ， (外 | 了 人 Ia 1611011 





最 后 得 到 的 文法 是 : (LT,T EBT, DR 
人 

EE+TIT*PFI(Dlotbtn lBto (TT wah TO 
T—»oT*FI(Elalbllallbl10111 (®t 


(RD PSoalbl loll0li0l11l 
(L,I) lIlIS3Salb|lIa|lIb|I0O|I1 


图 7-1 由 单位 产生 式 去 除 算法 
该 文法 中 没有 单位 产生 式 ， 但 它 和 图 5-19 中 的 文法 产生 的 第 (2) 步 构造 的 文法 
的 是 同样 的 表达 式 的 集合 。 条 


F—»(E)lalbllallbl710111 
一 站 DOT 


定理 7.13 如 果 文 法 G1! 是 由 上 面 所 述 的 去 除 单位 产生 式 的 算法 从 文法 G 构 造 出 来 的 ， 则 
LG) = CO)。 


证 明 我 们 将 要 证 明 : w 属 于 L(G) 当 且 仅 当 w 属 于 L(G')。 

( 当 ) 假设 8 二 w 。 因 为 G1 中 的 每 个 产生 式 都 等 价 于 G 中 零 个 或 多 个 产生 式 的 序列 再 跟着 G 
中 的 一 个 非 单位 产生 式 ， 因 此 得 知 过 B 蕴涵 着 全 有 。 也 就 是 说 ，Gi 中 推导 的 每 一 步 都 可 以 
用 G 中 的 一 步 或 多 步 推导 来 代替 。 如 果 我 们 把 这 些 步 推导 的 序列 合 在 一 起 ， 将 会 得 到 5 二 w 。 

( 仅 当 ) 假设 w 属 于 L(G)。 则 由 5.2 节 中 的 等 价 性 可 知 w 有 最 左 推导 ， 即 3 全 w 。 只 要 最 左 推 


导 中 使 用 了 单位 产生 式 ， 体 中 的 变 元 就 成 为 了 最 左 变 元 ， 因 而 将 会 立即 被 替换 。 因 此 ， 文法 G 中 
的 最 左 推导 可 以 被 打 断 为 一 系列 的 步 又 ， 这 些 步骤 是 由 零 个 或 多 个 单位 产生 式 再 跟 上 一 个 非 单 
位 产生 式 。 注 意 ， 任 何 前 面 没有 单位 产生 式 的 非 单位 产生 式 本 身 就 是 一 个 “步骤 "。 这 些 步骤 中 
的 每 一 步 都 可 由 G1 中 的 一 个 产生 式 来 完成 ， 原 因 是 Gi 的 构造 过 程 恰好 创建 了 反映 零 个 或 多 个 单 
位 产生 式 后 面 跟着 一 个 非 单位 产生 式 的 那 种 产生 式 。 因 此 有 $ 之 w 。 D 


现在 我 们 可 以 总 结 一 下 至 此 已 经 介绍 的 各 种 简化 方式 了 。 我 们 想 把 任何 一 个 CFG G 转 化 为 
男 一 个 等 价 的 没有 无 用 符号 、e 产 生 式 或 者 单位 产生 式 的 CFG。 为 了 实施 该 构造 过 程 ， 必 须 对 实 
施 上 面 的 几 种 简化 步骤 的 顺序 有 些 孝 虑 。 一 个 可 靠 的 顺序 是 : 

1. 去 除 e 产 生 式 。 

2. 去 除 单位 产生 式 。 

3. 去除 无 用 符号 。 

应 该 注意 的 是 : 正如 7.1.1 市 所 说 ， 我 们 必须 把 两 步 的 顺序 安排 好 ， 否 则 结果 中 会 有 无 用 符 
号 。 我 们 也 必须 把 上 面 的 三 步 的 顺序 安排 好 ， 否 则 结果 中 仍然 会 有 一 些 我 们 希望 去 除 的 东西 。 


定理 7.14 ”如果 G 是 产生 至 少 包含 一 个 ge 以 外 串 的 语言 的 CFG， 则 存在 另 一 个 CFG Gi 满足 
L(G1)=L(G) 一 {e}， 而 且 G1 没 有 Ee 产生 式 、 单 位 产生 式 或 者 无 用 符号 。 

证 明 从 使 用 7.1.3 市 中 所 介绍 的 去 除 e 产 生 式 的 方法 开始 。 如 果 我 们 接着 使 用 7.1.4 节 介绍 的 
去 除 单位 产生 式 的 方法 ， 则 在 该 过 程 中 并 没有 引入 任何 e 产 生 式 ， 原 因 是 任何 新 的 产生 式 的 体 都 
是 一 个 原来 旧 的 产生 式 的 体 。 最 后 ， 我 们 用 7.1.1 节 中 介绍 的 方法 来 去 除 无 用 符号 。 因 为 这 个 变 
换 仅 去 除 产 生 式 和 符号 ， 而 并 没有 引入 新 的 产生 式 ， 因 此 最 后 所 得 的 文法 中 将 会 仍然 没有 产生 
式 和 单位 产生 式 。 口 


7.1.5 乔 姆 斯 基 范 式 


我 们 将 通过 下 面 的 方式 来 完成 文法 简化 这 部 分 的 学 习 : 证 明 任何 非 空 且 不 含 se 的 CFL 都 有 特 
殊 形式 的 文法 G，G 中 所 有 的 产生 式 都 属于 以 下 两 个 简单 的 形式 之 一 : 

1.4 一 BC， 其 中 4,B 和 C 都 是 变 元 ， 或 者 

2.A 一 a， 其 中 4 是 变 元 ,a 是 终结 符 。 

更 进一步 ，G 设 有 无 用 符号 。 这 样 的 文法 称 为 乔 姆 斯 基 范 式 (Chomsky Normal Form) 或 
CHE 

把 一 个 文法 变 为 CNF， 要 从 满足 定理 7.14 中 限制 的 形式 出 发 ， 也 就 是 说 ， 该 文法 中 没有 e 产 
生 式 、 单 位 产生 式 或 者 无 用 符号 。 这 样 的 文法 中 的 每 个 产生 式 都 或 者 是 A 一 a 的 形式 ， 此 时 已 经 
是 CNF 允 许 的 形式 ， 或 者 它 的 体 的 长 度 为 2 或 更 大 。 我 们 的 任务 是 :; 

a) 重新 安排 这 些 产 生 式 ， 使 得 体 的 长 度 大 于 等 于 2 的 产生 式 的 体 中 只 有 变 元 。 

b) 把 体 的 长 度 大 于 等 于 3 的 产生 式 打 断 为 一 组 级 联 的 产生 式 ， 使 得 其 中 每 个 产生 式 的 体 都 只 


， 乔 姆 斯 基 (N. Chomsky) 是 首位 提出 把 上 下 文 无 关 文法 作为 描述 自然 语言 的 一 种 方式 的 语言 学 家 ， 并 且 他 证 


明了 任何 CFG 都 可 以 转化 为 这 种 形式 。 有 趣 的 是 ， 看 来 CNF 在 自然 语言 学 中 并 不 是 很 有 用 ,但 是 我 们 将 会 看 


到 它 有 许多 其 他 的 用 处 ， 比 如 在 一 个 上 下 文 无 关 语 言 中 串 的 成 员 性 的 有 效 测 试 中 (7.4.4 节 )。 


[eS 
~ 小 
Ph 
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包含 两 个 变 元 。 

步骤 a) 的 构造 过 程 如 下 。 为 每 个 出 现在 长 度 大 于 等 于 2 的 体 中 的 终结 符 a 创 建 一 个 新 的 变 元 A。 
该 变 元 只 有 一 个 产生 式 4 一 a。 现 在 ， 我 们 用 4 来 代替 所 有 长 度 大 于 等 于 2 的 体 中 出 现 的 c。 这 样 ， 
所 有 的 产生 式 的 体 或 者 是 单个 终结 符 ， 或 者 是 至 少 两 个 以 上 的 变 元 并 且 没 有 终结 符 。 

对 于 步骤 b)， 我 们 必须 把 那些 形式 为 4 一 BiB2…B (其 中 上 3) 的 产生 式 打 断 为 一 组 产生 式 ， 
其 中 每 个 产生 式 的 体 都 是 两 个 变 元 。 我 们 引入 k 一 2 个 新 变 元 C1, C2, …, Cu 。 原 来 的 产生 式 用 下 
面 的 k 一 1 个 产生 式 来 代替 : 

A=BiCi1, Ci™*B3C2s :1 Oe 3 Br 2GR 0 Cn 


例 7.15 让 我 们 来 把 例 7.12 中 的 文法 转化 为 CNF。 对 于 (a) 部 分 ， 注 意 有 8 个 终结 符 a,b,0, 1, + ,*， 
(以 及 )， 其 中 的 每 一 个 都 出 现在 不 只 是 一 个 终结 符 的 体 中 。 因 此 ， 我 们 必须 引入 8 个 新 的 变 元 ， 
分 别 对 应 这 8 个 终结 符 ， 在 引入 8 个 产生 式 来 表示 用 这 些 新 变 元 来 代替 和 它 对 应 的 终结 符 。 我 们 
使 用 最 简单 的 英文 首 字母 来 代表 新 变 元 ， 引 入 : 

4 一 a B—b Z-*0 0 一 1 
P— + MA | R=—) 


如 来 我 们 引入 这 些 产 生 式 ， 并 且 把 那些 不 是 单个 终结 符 的 产生 式 体 中 出 现 的 这 些 终结 符 用 
和 它 对 应 的 新 变 元 代替 ， 就 得 到 了 图 7-2 所 示 的 文法 。 


EPT|TMF|LER|a|lb|IA|IB|IZ|I0O 
TMF|LER|a|lb|IA|IIB|IZ|IO 
LER|a|lb|IA|IB|IZ|I0O 
olorAlrIBIIZ 17O 
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图 7-2 使 所 有 的 产生 式 体 都 是 单个 终结 符 或 者 多 个 变 元 


现 企 ， 除 了 长 度 为 3 的 几 个 产生 式 (EPT、TMF 和 LER) 以 外 ， 所 有 其 他 的 产生 式 都 符合 乔 
姆 斯 基 范 式 了 。 有 几 个 不 符 的 产生 式 体 还 出 现在 多 个 产生 式 中 ， 不 过 我 们 可 以 每 次 处 理 一 个 体 ， 
处 理 的 方法 是 为 每 个 引入 一 个 额外 的 变 元 。 对 于 EP7， 我 们 引入 新 变 元 Ci， 并 且 用 天 一 EC 和 
Ci 一 PT 来 替换 产生 式 E 一 EPT， 

对 于 TMF， 我 们 引入 新 变 元 C2。 使 用 这 个 体 的 两 个 产生 式 E 一 TMF 和 T 一 TMF 被 赫 换 为 E 一 TC;， 
T 一 TC 和 C2 一 MF。 接 着 ,对 于 LER， 我 们 引入 新 变 元 C3， 并 且 把 三 个 使 用 它 的 产生 式 E 一 LER， 
TLER 和 FLER 替 换 为 E 一 LC3，T 一 LC;3，F 一 LC3 和 C3 一 ER。 最 终 的 文法 是 CNF， 如 图 7-3 所 示 。 口 


定理 7.16 如果 G 是 其 语言 至 少 有 一 个 不 是 e 的 串 的 CFG， 则 存在 符合 乔 姆 斯 基 范 式 的 文法 
Gl 使 得 L(G1) = LACa) 
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图 7-3 使 所 有 的 产生 式 体 都 是 单个 终结 符 或 者 两 个 变 元 


证 明 根据 定理 7.14， 我 们 能 够 找到 CFG Gs 使 得 L(G,) = L(G) 一 {e}， 并 且 Gs 中 没有 无 用 符号 、 
Ee 产 生 式 或 者 单位 产生 式 。 把 Gs 转化 为 CNF 文 法 G1 的 构造 过 程 以 如 下 方式 改变 了 产生 式 : 每 个 G， 
中 的 产生 式 可 以 用 Gs 中 的 一 个 或 多 个 产生 式 来 模拟 。 反 过 来 ，G; 中 引入 的 变 元 都 只 有 一 个 产生 
式 ， 因 此 它们 只 能 用 在 精心 设计 的 地 方 。 更 加 形式 化 地 说 ， 我 们 要 证 明 : w 属 于 L(G2) 当 且 仅 当 w 
属于 L(G'1)。 

( 仅 当 ) 如 果 在 Gs 中 有 一 个 w 的 推导 ， 那 么 很 容易 用 一 系列 Gi 中 的 产生 式 来 代替 该 推导 中 使 
用 的 每 个 产生 式 ， 比 如 A 一 XX…X。 也 就 是 说 ，Gs 中 的 推导 中 的 一 步 变 成 了 使 用 G1 的 产生 式 在 
w 的 推导 中 的 一 步 或 多 步 。 首 先 ， 如 果 X% 是 终结 符 ， 则 可 知 避 有 一 个 相应 的 变 元 B; 利 二 个 产 入 式 
Bi 一 Xi;。 接 着 ， 如 果 k > 2， 则 G1 有 产生 式 4 一 BIC!，C1i 一 B.C,， 等 等 ， 其 中 B; 或 者 是 对 了 引入 的 
变 元 或 者 就 是 Xi 一 一 如 果 X; 本 身 就 是 变 元 的 话 。 这 些 产生 式 在 G1 中 模拟 了 Gs 中 使 用 了 A 一 XX,… 
义 的 推导 的 一 步 。 因 此 得 出 结论 : G1 中 存在 w 的 推导 ， 因 此 w 属 于 L(G1)。 

( 当 ) 假设 w 属 于 L(G1)， 则 存在 G1 的 以 5 为 根 且 产物 为 w 的 语法 分 析 树 。 接 下 来 把 该 树 转 化 为 
G; 的 以 S 为 根 且 产物 为 w 的 语法 分 析 树 。 

首先 ， 我 们 “撤销 ”CNF 构 造 过 程 中 的 (b) 部 分 。 也 就 是 说 ,假设 有 一 个 标号 为 4 的 节点 ， 
它 的 两 个 子 节 点 标号 为 BL 和 C1!， 其 中 Cl 是 一 个 在 (b) 部 分 中 引入 的 变 元 。 那 么 语法 分 析 树 的 这 
部 分 一 定 是 图 7-4a 的 样子 。 也 就 是 说 ， 由 于 这 些 引 入 的 变 元 每 个 只 有 一 个 产生 式 ， 因 此 它们 只 
能 以 一 种 方式 存在 ,而且 所 有 引入 来 处 理 产 生 式 A 一 B18B，…Bi 的 变 元 都 一 定 在 一 起 出 现 ， 如 图 
所 示 。 

语法 分 析 树 中 所 有 这 样 的 节点 复 都 可 以 用 它们 所 代表 的 产生 式 代 替 ， 图 7-4b 给 出 了 语法 分 
析 树 变换 。 

所 得 到 的 语法 分 析 树 仍然 不 一 定 是 Cz 中 的 语法 分 析 树 。 原 因 是 CNEF 的 构造 过 程 的 (a) 部 分 会 
引入 其 他 推导 出 单个 终结 符 的 变 元 。 然 而 ， 我 们 可 以 在 当前 的 语法 分 析 树 中 识别 出 它们 ， 并 且 
用 单个 标号 为 4 的 市 点 来 代替 一 个 标号 为 4 的 单个 节点 及 其 标号 为 4 的 子 节点 。 现 在 ， 该 语法 分 析 
树 的 每 个 内 部 节点 都 构成 了 G; 的 一 个 产生 式 。 因为 w 是 Gs 的 语法 分 析 树 的 产物 ， 因 此 得 出 结论 : 
w 属 于 L(G;)。 加 
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b) 
图 7-4 Gi 中 的 语法 分 析 树 一 定 用 特殊 的 方式 来 使 用 引入 的 变 元 


格雷 巴赫 范式 


对 于 文法 来 说 ， 有 男 外 一 种 有 趣 的 范式 ， 不 过 我 们 将 不 加 以 证 明 。 任 何 非 空 且 不 含 e 的 
语言 都 是 某 个 文法 G 的 L(G)， 并 且 G 的 每 个 产生 式 都 是 4 一 aa 形 式 的 ， 其 中 a 是 一 个 终结 符 ， 
0 是 雪 个 或 多 个 变 元 的 串 。 把 一 个 文法 转化 为 这 种 形式 的 过 程 比较 复杂 ， 即 使 我 们 把 任务 
简化 一 些 〈 比 如 从 乔 姆 斯 基 范 式 文法 出 发 ) 也 是 如 此 。 粗 略 地 说 ， 我 们 扩展 每 个 产生 式 的 
第 一 个 变 元 ， 直 到 得 到 一 个 终结 符 。 然 而 ， 因 为 有 可 能 存在 环 ， 因 此 有 可 能 永远 无 法 到 达 
终结 符 ， 此 时 就 必须 要 使 该 过 程 “短路 ”: 创建 一 个 产生 式 ， 这 个 产生 式 引入 一 个 新 的 终 


结 符 作为 体 的 第 一 个 符号 ， 后 面 跟着 若干 变 元 ， 这 些 变 元 是 用 来 产生 所 有 可 能 在 产生 该 终 


结 符 的 过 程 中 所 产生 的 变 元 序列 。 

这 种 形式 称 为 格雷 巴林 范式 (Greibach Normal Form)， 是 用 格雷 巴赫 (Sheila Greibach) 
的 姓氏 命名 的 ， 因 为 他 首次 给 出 这 种 文法 的 构造 方法 。 这 种 文法 有 多 个 有 趣 的 结果 。 由 于 每 
个 产生 式 的 使 用 恰好 会 给 一 个 名 型 引入 一 个 终结 符 ， 因 此 一 个 长 度 为 m 的 串 的 推导 的 长 度 恰 
好 是 n 步 。 并 且 ， 如 果 我 们 对 于 一 个 格雷 巴赫 范式 的 文法 使 用 定理 6.13 中 PDA 的 构造 方法 ， 则 
我 们 得 到 的 PDA 没 有 规则， 因此 说 明了 对 于 一 个 PDA 来 说 去 除 这 种 类 型 的 转移 总 是 可 能 的 。 
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7.1.6 习题 

* 习题 7.1.1 找到 一 个 不 含 无 用 符号 的 等 价 于 以 下 文法 的 文法 : 
S—ABI1CA 
4 一 0 
B—BC|AB 
C—aBlb 

* 习题 7.1.2 ”从 以 下 文法 出 发 
S—ASBl|eEe 
A—aASla 
B—SbSI1AlIpbb 

a) 去 除 e 产 生 式 。 

b) 去 除 单位 产生 式 。 


c) 有 没有 无 用 符号 ? 如 果 有 去 除 它们 。 
d) 把 该 文法 转化 为 乔 姆 斯 基 范 式 。 
习题 7.1.3 对 以 下 文法 重复 习题 7.12: 
Ss—04A011B811BB 
AmG 
B—S1A 
CC 一 过 
习题 7.1.4 对 以 下 文法 重复 习题 7.1.2; 
3 一 44415 
4 一 041B 
Be 
习题 7.1.5 对 以 下 文法 重复 习题 7.1.2; 
Ss—aAalbBble 
A—Cla 
2 一 C12 
C 一 CD 
D—AIBlab 
习题 7.1.6 给 括号 匹配 的 串 的 集合 设计 一 个 CNF 文 法 。 你 不 必 从 任何 特别 的 非 CNF 文 法 
出 发 。 
!! 习题 7.1.7 假设 CFG G 有 p 个 产生 式 ， 并 且 产 生 式 的 体 的 长 度 都 不 超过 n。 证 明 : 如 果 4 一 e， 
则 存在 从 A 到 s 且 不 超过 (mw 一 1)/(n 一 1) 步 的 推导 。 实 际 上 你 能 够 离 访 界限 多 近 ? 
! 习题 7.1.8 ”假设 我 们 有 一 个 文法 G，C 的 产生 式 右 端 长 度 之 和 是 nm， 但 这 些 产生 式 都 不 是 e 产 
生 式 ， 把 该 文法 转化 为 CNF。 
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a) 证 明 : 该 CNF 文 法 至 多 有 O(n”) 个 产生 式 ，。 

b) 证 明 : 该 CNF 文 法 可 能 有 数量 正比 于 2 的 产生 式 。 提 示 : 考虑 去 除 单位 产生 式 的 构造 过 
程 。 

习题 7.1.9 给 出 完成 以 下 定理 的 归纳 证 明 : 

a) 定理 7.4 的 一 部 分 : 证 明 该 算法 所 发 现 的 符号 确实 是 产生 的 。 

b) 定理 7.6 的 两 个 方向 : 证 明 7.1.2 节 中 检测 可 达 符 号 的 算法 的 正确 性 。 

c) 定理 7.11 的 一 部 分 : 证 明 所 有 发 现 的 对 确实 都 是 单位 对 。 

*! 习题 7.1.10 ”对 于 任何 不 含 sg 的 上 下 文 无 关 语 言 ， 有 没有 可 能 找到 二 个 这 样 的 文法 ; 它 的 所 
有 产生 式 都 是 4 一 BCD ( 即 体 中 包含 三 个 变 元 ) 或 者 4 一 a ( 即 体 中 包含 一 个 终结 符 ) 形式 的 ?给 
出 证 明 ， 或 者 给 出 反例 。 

习题 7.1.11 ”在 这 个 习题 中 ， 要 证 明 对 于 任何 包含 至 少 一 个 不 是 :的 串 的 上 下 文 无 关 语 言 L， 
存在 一 个 产生 L 一 {a} 的 格雷 巴赫 范式 的 CFG。 格 雷 巴 赫 范式 (GNF) 的 文法 中 所 有 的 产生 式 体 
都 以 一 个 终结 符 开始 。 该 构造 过 程 将 通过 使 用 一 系列 的 引 理 和 构造 来 完成 . 
a) 假设 CFG G 有 产生 式 4 一 aBB， 并 且 所 有 B 的 产生 式 为 B 一 yi1%1…1 y。 则 如 果 我 们 用 所 有 
用 B 产 生 式 的 体 来 代替 B 所 得 产生 式 来 替代 4 一 aBB6， 即 4 一 aybB1ayppB1… 1 ay,B， 则 所 得 
的 文法 和 G 产 生 同 样 的 语言 。 
在 下 文中 ， 假 设 Z 的 文法 G 是 乔 姆 斯 基 范 式 的 ， 并 且 用 到 的 变 元 为 4 hy, …, 4， 

#! b) 通过 重复 使 用 (a) 部 分 的 变换 ， 证 明 可 以 把 G 转 化 为 一 个 等 价 的 文法 ， 并 且 该 文法 中 的 任 
何 4; 产生 式 的 体 或 者 以 一 个 终结 符 开始 ， 或 者 以 4j 开始 (j>i) 。 在 这 两 种 情况 下 ， 所 有 
产生 式 中 第 一 个 符号 之 后 的 所 有 符号 都 是 变 元 。 

! c) 假设 G1 是 通过 对 G 使 用 步骤 (b) 所 得 的 文法 。 设 4; 是 任何 变 元 ; 且 设 A 一 Aian 1… 1 hioi 是 所 
有 以 4 开头 的 4; 产生 式 。 设 

4 一 有 be 1pB, 
是 所 有 其 他 的 4; 产 生 式 。 注意, 每 个 B 一 定 以 一 个 终结 符 或 者 一 个 序号 比 j 大 的 变 元 开头 ， 
引入 一 个 新 变 元 Bi， 同 时 把 第 一 组 的 m 个 产生 式 替 换 为 
4 一 记 BiT |p,B:; 
Bi— QB;| oo :| 0B;| oo, 
证 明 这 样 所 得 的 文法 和 G 以 及 G, 产 生 相同 的 语言 。 

*! d) 假设 C? 是 使 用 步骤 (c) 所 得 的 文法 。 注 意 ， 所 有 的 4; 产生 式 的 体 都 以 一 个 终结 符 或 者 A 
(j>i) 开头 。 同 样 ， 所 有 B; 产 生 式 的 体 都 以 一 个 终结 符 或 者 某 个 4j 开 头 。 证明， Gy 有 为 
GNF 的 等 价 的 文法 。 提 示 : 首先 用 (a) 部 分 中 的 方法 来 修改 Ai 的 产生 式 ， 接 着 是 -i1， 依 
此 类 推 ， 直 到 A!， 再 用 (a) 部 分 中 的 方法 来 以 任何 顺序 修改 B, 的 产生 式 。 

习题 7.1.12 ”用 习题 7.1.11 中 的 构造 方法 来 把 以 下 文法 转化 为 GNF、 
Ss—AAI10 
太一 391 


7.2 上 下 文 无 关 语言 的 泵 引 理 


下 面 开 发 一 个 工具 ， 它 可 以 用 来 证 明 某 个 语言 不 是 上 下 文 无关 的 。 称 为 “上 下 文 无 关 语 言 
的 系 引 理 ” 的 定理 说 : 对 于 一 个 CFL 中 的 任何 串 ， 只 要 它 足够 长 ， 就 能 够 找到 至 多 两 个 接近 的 
短 串 ， 称 其 为 合作 的 “和 泵 "。 也 就 是 说 ， 对 于 任何 整数 ;， 我 们 都 可 以 重复 这 两 个 串 ; 次 ， 并 且 所 
得 的 串 也 将 在 这 个 语言 中 。 

我 们 可 以 把 这 个 定理 和 类 似 的 正则 语言 的 泵 引 理 (定理 4.1， 它 是 说 总 可 以 找到 一 个 短 串 作 
为 ” 稍 ) 相 比 较 。 在 考虑 语言 L = {0"1” 1 n 之 1} 时 看 到 了 不 同 点 。 我 们 可 以 证 明 它 不 是 正则 的 ， 
只 要 固定 住 *， 同 时 泵 出 一 个 0 的 短 串 ， 这 样 所 得 的 串 中 0 的 个 数 比 1 的 个 数 多 。 然 而 ，CFL 的 泵 
引 理 只 征 说 我 们 能 够 找到 两 个 短 串 ， 因 此 我 们 可 能 不 得 不 使 用 一 个 0 的 串 和 一 个 1 的 串 ， 因 此 ， 
当 我 们 用 它们 作为 和 时 所 得 的 串 都 在 Z 中 。 这 个 结果 其 实 是 幸运 的 ， 因 为 Z 是 一 个 CFL， 所 以 我 
们 不 可 能 通过 CFL 泵 引 理 来 构造 出 不 属于 L 的 串 。 


7.2.1 语法 分 析 树 的 大 小 


推导 CFL 的 泵 引 理 的 第 一 步 就 是 检查 语法 分 析 树 的 大 小 和 形状 。CNF 的 用 法 之 一 就 是 能 够 
把 语法 分 析 树 变 为 二 又 树 ， 这 种 树 有 很 多 方便 的 性 质 ， 下 面 会 使 用 其 中 的 一 个 性 质 。 


定理 7.17 假设 有 了 一 棵 对 应 于 乔 姆 斯 基 范 式 文法 G = (V, 7, P, 5) 的 语法 分 析 树 ， 并 且 该 树 
的 产物 为 终结 符 串 w。 如 果 最 长 的 路 径 长 度 为 mn， 则 Iwl 和 2 一 !。 

证 明 这 个 证 明 就 是 简单 地 对 n 进 行 归纳 。 

基础 : n = 1， 记 得 一 个 树 中 路 径 的 长 度 是 指 该 路 径 中 边 的 数目 ， 即 顶点 数 减 一 。 因 此 ， 一 
棵 最 大 路 径 长 度 为 1 的 树 只 有 一 个 根 节 点 和 一 个 标号 为 终结 符 的 叶 节 点 。 这 个 终结 符 就 是 串 w， 
因此 wl = 1。 由 于 此 时 2”! = 2 = 1， 所 以 基础 部 分 得 证 。 

归纳 : 假设 最 长 路 径 的 长 度 为 +， 而 且 n>1。 该 树 的 根 使 用 的 产生 式 一 定 是 A 一 BC 形式 的 ， 
原因 是 n > 1， 也 就 是 说 ， 我 们 不 能 使 用 体 为 终结 符 的 产生 式 开 始 这 棵 树 。 以 B 和 C 为 根 的 子 树 的 
最 大 路 径 的 长 度 都 小 于 或 等 于 "一 1， 原 因 是 这 些 路 径 均 不 包括 从 根 到 标号 为 B 和 C 的 节点 的 边 。 
因此 ， 由 归纳 假设 可 知 : 这 两 棵 子 树 的 产物 的 长 度 至 多 为 2”…?。 因 此 整 棵 树 的 产物 就 是 这 两 棵 子 
树 的 产物 连接 ， 它 的 长 度 也 就 至 多 为 2 + 2"?= 2"!。 因 而 归纳 部 分 得 证 。 口 


7.2.2 和 泵 引 理 的 陈述 


CFL 的 录 引 理 和 正则 语言 的 泵 引 理 很 类 似 ， 不 过 我 们 要 把 每 个 CFL Z 中 的 串 z 打 断 为 五 个 部 
分 ， 而 且 我 们 把 其 中 第 二 和 第 四 部 分 合 起 来 作为 “ 泵 ”。 


定理 7.18 (上 下 文 无 关 语 言 的 泵 引 理 ) 设 L 是 一 个 CFL， 则 存在 常数 n 满 足 ， 如 果 Z 中 的 串 z 
的 长 度 lz| 不 小 于 n， 则 可 以 把 z 写 作 z = uvwxy， 且 满足 以 下 条 件 : 
1. lvywxl < n， 也 就 是 说 ， 中 间 的 部 分 不 会 很 长 。 
2.vXx 关 E。 因 为 v 和 x 是 被 “和 泵 ”的 两 段 ， 因 此 这 个 条 件 是 说 其 中 至 少 有 一 段 不 为 空 。 
3. 对 于 所 有 的 i0，uviwxy 属 于 L。 也 就 是 说 ， 中 间 的 两 个 串 v 和 x 可 以 被 重复 “和 泵 ”任意 多 
次 (包括 0 次 )， 并 且 所 得 的 串 仍 然 属于 L。 


[BS 
~ 
\ 
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证 明 ”第 一 步 是 要 找到 Z 的 乔 姆 斯 基 范 式 文法 G。 从 技术 上 来 说 ， 如 果 Z 是 CEFL 或 者 {e}， 
则 无 法 找到 这 样 的 文法 。 但 是 ， 如 果 L = 名 则 在 该 定理 中 所 说 的 L 中 的 串 z 当 然 不 可 能 存在 ， 因 为 
名 中 不 可 能 有 这 样 的 串 z。 同 样 ，CNF 文 法 G 实 际 上 会 产生 语言 L 一 {e}, 但 是 这 也 不 重要 ， 因 为 
我 们 当然 可 以 选取 n > 0， 这 时 无 论 如 何 z 都 不 可 能 是 e。 

现在 ， 从 一 个 满足 L(G) = 工 一 {8} 的 CNF 文 法 G = (V,7T, P, 5) 出 发 ， 设 G 有 m 个 变 元 。 取 n = 2m。 
接着 ,假设 z 属 于 L， 且 它 的 长 度 至 少 是 nx。 根据 定理 7.17， 任 何 最 长 路 径 不 超过 m 的 语法 分 析 树 
的 产物 的 长 度 至 多 为 2"™! = mW2。 这 样 的 语法 分 析 树 的 产物 不 可 能 为 z， 因 为 z 太 长 了 。 因 此 , 任 
何 产 物 为 z< 的 语法 分 析 树 都 至 少 有 一 条 长 度 不 少 于 m + 1 的 路 径 。 

图 7-5 给 出 了 z 的 树 中 的 最 长 路 径 ， 其 中 k 至 少 是 m， 且 该 路 径 的 长 度 为 k + 1。 由 于 k 宇 m， 因 
此 在 该 路 径 上 至 少 出 现 了 m + 1 次 变 元 ho, A1, …, ht。 因 为 V 中 只 有 m 个 不 同 的 变 元 ， 所 以 该 路 径 
上 的 m + 1 个 变 元 中 至 少 有 两 个 是 同一 变 元 。 假 设 4; = A;， 其 中 k 一 m<i<j <k。 
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a 
图 7-5 Z 中 每 个 足够 长 的 串 一 定 在 它 的 语法 分 析 树 中 有 一 条 足够 长 的 路 径 
然后 ， 我 们 可 以 把 图 7-6 中 的 树 分 开 。 串 w 是 以 4 为 根 节 点 的 子 树 的 产物 。 串 v 和 :分别 是 


S 


St 


图 7-6 把 串 w 分 开 以 使 它 能 够 被 “ 泵 ” 
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在 以 A; 为 根 节点 的 更 大 的 子 树 中 位 于 w 左 边 和 右边 的 串 。 注 意 ， 由 于 没有 单位 产生 式 ， 所 以 vY 
和 x 不 可 能 都 是 z:， 不 过 其 中 可 能 有 一 个 是 。 最 后 ， S 

u 和 y 是 z 中 分 别处 于 以 4i 为 根 节 点 的 子 树 左 边 和 厂 
边 的 部 分 。 

如 果 A; = hj; = 4， 则 可 以 从 原来 的 树 出 发 来 构 
造 一 棵 新 的 语法 分 析 树 ， 就 像 图 7-7a 中 所 示 的 那 
样 。 首 先 ， 可 以 用 以 4 为 根 : 产物 为 w 的 子 树 来 
代替 以 4, 为 根 、 产 物 为 wwx 的 子 树 。 能 够 这 么 做 的 
原因 是 这 两 棵 树 的 根 的 标号 都 是 4。 所 得 到 的 树 在 
图 7-7b 中 给 出 ， 它 的 产物 为 wy， 对 应 于 串 模 板 
uviwxiy 当 i = 0 时 的 情况 。 

图 7-7c 给 出 了 另 一 种 选择 。 在 此 ， 可 以 用 以 4， 
为 根 的 整 棵 子 树 来 代替 以 4 为 根 的 子 树 。 这 回 所 利 
用 原理 仍然 是 ， 我 们 在 用 一 个 根 标 号 为 4 的 子 树 来 
代替 另 一 棵 根 标号 相同 的 子 树 。 这 次 所 得 到 的 树 的 
产物 为 zy2wxzy。 如 果 再 用 产物 为 wwx 的 更 大 的 子 树 
来 代替 图 7-7c 中 产物 为 w 的 子 树 的 话 ， 将 得 到 产物 
为 UV3awxay 的 树 ， 依 此 类 推 ， 直 到 对 于 任何 指数 ;。 
因此 ， 对 于 满足 uviwxiy 形 式 的 任何 串 ， 都 存在 相应 





的 G 的 语法 分 析 树 ， 至 此 已 经 几乎 证 明了 泵 引 理 ， 2 
剩 下 的 细节 就 是 条 件 (1)， 它 是 说 lvwxl<n。 然 9) 
而 ， 我 们 所 选 的 4, 是 最 靠近 树 的 底部 的 ， 也 就 是 说 图 7-7 “和 泵 出 ” 串 w 和 zx， 并 且 重 复 
上 -is<m。 因此， 以 4; 为 根 节点 的 子 树 的 最 长 路 径 人 
的 长 度 也 不 超过 m+ 1。 由 定理 7.17 可 知 ， 以 4; 为 根 的 子 树 的 产物 的 长 度 不 超过 2" =n。 口 “ 区 2 


7.2.3 ”CFL 的 泵 引 理 的 应 用 


值得 注意 的 是 ， 就 像 以 前 介绍 的 正则 语言 的 泵 引 理 一 样 ， 我 们 用 如 下 的 “对 手 比 赛 ” 的 方 
式 来 使 用 CFL 的 泵 引 理 。 

1. 我 们 选择 一 个 想 要 证 明 不 是 CFL 的 语言 L。 

2. 我们 的 “对 手 ” 选 择 x， 但 我 们 并 不 知道 它 ， 因 此 我 们 必须 考虑 任何 可 能 的 n。 

3. 我 们 选择 z， 并 且 在 我 们 这 样 做 的 时 候 可 以 把 n 作 为 参数 。 

4. 我 们 的 对 手 把 z 打 断 为 vwxy， 只 要 满足 条 件 lvwxl < 2 上 且 vx 关 e 即 可 。 

5. 如 果 我 们 能 够 选择 i 使 得 uviwxiy 不 属于 L， 那 么 我 们 就 “赢得 ”了 这 场 比赛 。 

下 面 来 看 一 些 能 够 用 和 泵 引 理 证 明 不 是 上 下 文 无 关 的 语言 的 例子 。 第 一 个 例子 说 明了 : 虽然 
上 下 文 无 关 语 言 能 够 比较 两 组 符号 是 否 相 等 ， 但 它们 无 法 比较 这 样 的 三 组 符号 。 


例 7.19 设 Z 是 语言 {0"12"172>1}。 也 就 是 说 ， 工 由 所 有 0* 1*+2+ 中 这 三 个 符号 个 数 相同 的 串 
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组 成 ， 例 如 012, 001122 等 。 假 设 Z 是 上 下 文 无 关 的 ， 则 根据 泵 引 理 存在 一 个 整数 ze 。 我 们 取 z = 
On 
假设 我 们 的 “对 手 ” 把 z 打 断 为 z = uvwxy， 其 中 lvwxl < nn 且 vx 不 都 是 e。 则 我 们 知道 wx 不 
可 能 同时 包含 Oo 和 2， 因 为 即使 是 最 后 一 个 0O 和 第 一 个 2 之 间 也 相差 n + 1 个 位 置 。 我 们 将 证 明 L 包 含 
茶 些 已 经 不 属于 Z 的 串 ， 因 而 和 Z 是 CFL 的 假设 相 了 矛盾 。 这 些 情况 如 下 ; 
1. vwx 中 没有 2。 则 vx 只 含有 0 和 1， 并 且 至 少 有 其 中 一 个 符号 。 根 据 泵 引 理 可 知 uwy 一 定 属于 
L, 但 它 有 n 个 2 而 只 有 少 于 n 个 0 或 者 少 于 n 个 1 或 者 两 者 都 满足 ， 因 而 可 知 它 不 属于 L， 此 
时 我 们 得 知 Z 不 是 CFL。 
2.vwx 中 没有 0。 类 似 地 ，vwx 中 有 n 个 0， 但 是 1 或 者 2 的 数目 不 够 。 因 此 它 也 不 属于 LL。 
无 论 以 上 哪 种 情况 成 立 ， 我 们 都 可 以 得 出 L 中 有 不 属于 L 的 串 的 结论 。 这 个 矛盾 使 得 我 们 能 
够 推翻 前 面 关 于 LL 是 CFL 的 假设 ，L 不 是 CFL， 口 


故 一 件 CFL 不 能 做 的 事情 是 比较 两 对 符号 的 数目 是 否 分 别 相 等 ， i 又 给 出 。 
下 面 使 用 硝 引 理 的 非 上 下 文 无 关 性 证 明 的 例子 准确 地 描述 了 这 一 思想 。 


z = 0"1”2"3"。 我 们 可 以 把 z 写 作 z = uvwxy， ele i Eo eri dd 
符号 构成 的 子 串 中 ， 或 者 跨越 了 两 个 相 邻 的 符号 。 

如 打 ywWX 只 包含 一 个 符号 ， 则 zwy 有 7z 个 三 种 不 同 的 符号 以 及 少 于 m 个 的 第 四 种 符号 ， 因 此 ， 
它 不 可 能 属于 民 。 如 果 wwx 跨 越 了 两 种 符号 ， 比 如 1 和 2， 则 zwy 或 者 少 了 一 些 1， 或 者 少 了 一 些 2， 
或 者 两 者 都 少 。 假 设 它 少 了 1， 因 为 有 n 个 3， 它 不 可 能 属于 L。 类 似 地 ， 如 果 它 少 了 2， 则 因为 它 
有 n 个 0， 所 以 uwy 也 不 可 能 属于 L。 我 们 可 以 得 出 矛盾 的 结论 ， 因 而 推翻 了 L 是 CFL 的 假设 。 训 


下 面 是 最 后 的 一 个 例子 ， 我 们 将 要 证 明 CFL 无 法 匹配 任意 长 度 的 两 个 串 ， 只 要 这 两 个 串 是 
从 不 只 有 一 个 符号 的 字母 表 中 选 出 来 的 。 顺 带 地 ， 这 个 事实 的 一 个 含意 是 : 对 于 在 编程 语言 
强迫 某 些 “语义 的 ”限制 来 说 ,文法 并 不 是 一 个 很 合适 的 机 制 。 比 如 通常 限制 标识 符 必须 在 它 
声明 之 后 才能 使 用 。 在 实际 使 用 中 有 另 一 个 机 制 ( 比 如 “符号 表 ”) 是 用 来 记录 声明 了 的 标识 
的 ， 并 且 我 们 并 不 会 尝试 去 设计 一 个 能 够 检查 “定义 先 于 使 用 ”的 语法 分 析 器 。 


例 7.21 设 L = {ww 1w 属 于 {0, 1}*}。 也 就 是 说 ， Z 由 重复 的 串 构成 ， 比 如 s, 0101, 00100010 
或 者 110110。 如 果 Z 是 上 下 文 无 关 的 ， 则 设 x 是 由 泵 引 理 得 到 的 它 的 常数 。 考 虑 串 z = O"ln0"l"， 访 
串 是 0"1" 的 重复 ， 所 以 z 属 于 志 。 

由 前 面 例子 中 的 模式 可 知 ， 我 们 可 以 把 z 写 作 z = zwwwxy， 并 且 满 足 moxl<n 目 wx 关 s。 我 们 将 
要 证 明 uwy 不 属于 L， 并 且 因 此 根据 矛盾 证 明 L 不 是 上 下 文 无 关 语言 。 : 

首先 ， 注 意 到 因为 lvwxl<n，luwyl>3n。 因 此 ， 如 果 uwy 是 某 个 重复 的 串 ， 比如 tt， 则 zt 的 长 
度 至 少 是 3n/2。 根 据 vwx 处 在 z 中 的 位 置 ， 有 几 个 情况 需要 考虑 。 

1. 假 设 vwx 处 在 前 n 个 0 中 。 特 别 地 ， 设 vx 包括 x 个 0， 其 中 k > 0， 则 zwy 以 0 打头。 因为 


日 “ 记 住 这 个 n 是 由 泵 引 理 提供 的 常数 ， 所 以 它 和 语言 L 本 身 定义 中 的 局 部 变量 n 毫 无 关系 。 
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luwyl = 4n 一 k， 可 知 如 果 uwy = tt 则 由 = 2n 一 k/2。 因 此 汪 定 在 第 一 段 1 之 后 结束 ， 也 就 是 
说 ，t 在 0 中 结束 。 但 是 wwy 结 束 在 1 中 ， 因 此 它 不 可 能 等 于 #t。 

2. 假 设 vwx 跨 越 了 第 一 段 0 和 第 二 段 1。 则 有 可 能 wx 只 由 0 构成 (如果 xz = 2)。 关 于 uwy 不 是 tt 的 
形式 的 论证 和 情况 (1D) 相 同 。 如 果 vx 至 少 有 一 个 1， 则 我 们 能 够 注意 到 1 的 长 度 至 少 为 3n/2， 
并 且 一 定 以 "结束 ;原因 是 wwyL1" 结束 。 然 而 ， 除 了 最 后 一 段 1 之 外 不 存在 长 度 为 n 的 一 
段 1， 因 此 在 wwy 中 1 不 可 能 重复 。 

3. 如 采 vwx 包 含 在 第 一 段 1 中 ， 则 关于 uwy 不 属于 L 的 证 明和 情况 (2) 的 第 二 部 分 类 似 。 

4. 假 设 vwx 跨 越 了 第 一 段 1I 和 第 二 段 0。 如 果 vx 中 没有 0， 则 该 论证 和 vwx 处 在 第 一 段 1 中 的 情 
况 下 的 证 明 相同 。 如 果 vx 至 少 有 一 个 0， 则 uwy 以 一 段 长 度 为 的 0 开头 ， 因 此 如 果 uwy = tt 
则 t 也 是 如 此 。 然 而 ， 在 uwy 的 第 二 段 中 不 存在 其 他 的 长 度 为 n 的 0 的 块 。 在 这 种 情况 下 我 
们 仍然 可 以 得 出 uwy 不 属于 L 的 结论 。 

5. 在 其 他 情况 下 ， 其 中 vwx 处 在 z 的 后 一 半 ， 则 论证 过 程 对 称 于 vwx 处 在 z 的 前 一 半 的 情况 。 

因此 ， 没 有 一 种 情况 是 wy 属于 L， 因 此 得 出 L 不 是 上 下 文 无 关 的 结论 ; 口 


7.2.4 习题 


习题 7.2.1 用 CFL 泵 引 理 来 证 明 下 面 的 语言 都 不 是 上 下 文 无 关 的 : 
* a) {abict|li<j<k}, 
Db lob li Hn. 
c) {0? 1p 是 素数 }。 提 示 : 使 用 和 例 4.3 中 证 明 不 是 正则 语言 时 采用 的 相同 的 思想 。 

二 dd) {OT Y= 

eei n < nm} 

! {wwew 1 w 是 0 和 1 的 串 }。 也 就 是 说 ， 由 某 个 串 w 和 它 的 反 向 串 再 和 它 本 身 连接 起 来 的 串 

(比如 001100001) 构成 的 集合 。 

! 习题 7.2.2 ” 当 我 们 想 要 对 一 个 CFL L 使 用 泵 引 理 时 , “对手 获胜 ”， 我 们 无 法 完成 证 明 过 程 。 

给 出 当 我 们 选择 以 下 语言 作为 L 时 出 问题 的 地 方 : 
a) {00, TIL 

*b) {01l*|n 二 1}, 

* C) 字母 表 {0, 1} 上 回 文 串 的 集合 。 

! 习题 7.2.3 有 一 个 比 CFL 泵 引 理 更 强 的 引 理 ， 即 奥 格 登 引 理 (Ogden’s lemma)。 它 和 泵 引 
理 的 不 同 之 处 在 于 : 它 允 许 我 们 在 串 z 中 选择 任意 nx 个 “显著 ” 的 位 置 ， 并 上 且 能 够 保证 被 泵 的 串 
一 定 包 含 1 到 n 个 显著 位 置 。 这 种 能 力 的 好 处 是 : 如 果 一 个 语言 的 串 可 能 由 两 部 分 构成 ， 如 果 泵 
处 在 其 中 一 部 分 可 能 并 不 会 产生 不 属于 该 语言 的 串 ， 而 对 于 另 一 部 分 来 说 则 可 能 就 会 产生 该 语 
言 之 外 的 串 。 如 果 没 有 把 泵 固定 在 后 一 部 分 发 生 的 能 力 ， 我 们 就 无 法 完成 非 上 下 文 无 关 性 的 证 
明 。 奥 格 登 引 理 的 形式 化 描述 为 : 如 果 L 是 一 个 CFL， 则 存在 常数 n 使 得 :如 果 z 是 L 中 任何 一 个 
长 度 不 少 于 n 的 串 ， 那 么 就 可 以 在 z 中 选择 至 少 n 个 显著 位 置 ， 并 且 可 以 把 z 写 作 z = uvwxy 且 使 之 
满足 : 

1. vwx 至 多 有 nn 个 显著 位 置 。 
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2.vx 至 少 有 1 个 显著 位 置 。 
3. 对 于 所 有 的 i，uviwxiy 属 于 L。 
试 证 明 奥 格 登 ?| 理 。 提 示 : 该 证 明和 定理 7.18 中 泵 引 理 的 证 明 过 程 实际 上 是 相同 的 ， 只 要 我 们 假 
设 z 中 的 非 显著 位 置 当 我 们 在 z 的 语法 分 析 树 中 选择 一 条 长 的 路 径 时 根本 不 存在 即 可 。 
* 习题 7.2.4 ”使 用 奥 格 登 引 理 (习题 7.2.3) 来 简化 例 7.21 中 关于 L = {ww 1 w 属 于 {0, 1}*} 不 是 
CFL 的 证 明 过 程 。 提 示 : 让 两 个 中 间 块 可 区 分 。 
习题 7.2.5 使 用 奥 格 登 引 理 (习题 7.2.3) 来 证 明 下 列 语言 不 是 CFL.: 
1 a) {O01 :017= max(i, RK)}, 
小 b) {arb"c'1i 关 n}。 提 示 : 如 果 7 是 奥 格 登 引 理 的 常数 ， 考 虑 串 z = arprc"*n!。 


7.3 上 下 文 无 天 语言 的 封闭 性 


接 下 来 将 会 考虑 一 些 对 于 上 下 文 无 关 语言 的 运算 ， 这 些 运 算 能 够 保证 生成 的 仍然 是 CFL。 
很 多 这 里 将 要 考虑 的 封闭 性 都 与 4.2 节 中 正则 语言 的 定理 相 类 似 。 然 而 ， 它 们 之 间 也 有 些 区 别 。 

首先 ， 引 入 一 个 称 为 代入 的 运算 ， 在 这 个 运算 中 我 们 用 一 个 完整 的 语言 来 代替 另 一 个 语言 
中 的 串 里 的 每 个 符号 。 这 个 运算 是 我 们 在 4.2.3 节 中 学 习 过 的 同 态 的 推广 ， 它 有 助 于 证 明 许多 其 
他 的 CFL 的 封闭 性 ， 例 如 正则 表达 式 运 算 : 并 、 连 接 和 闭 包 。 我 们 将 证 明 CEFL 在 同 态 和 逆 同 态 下 
都 是 闭 的 。 和 正则 语言 不 同 的 是 : CFL 在 交 和 差 下 不 是 闭 的 。 然 而 ，CFL 与 正则 语言 的 交 和 差 仍 
然 是 CFL。 
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设 2 是 一 个 字母 表 ， 并 且 假 设 对 于 任何 了 中 的 符号 a， 可 以 选择 一 个 语言 L,。 这 个 语言 可 以 
包含 任何 字母 表 中 的 符号 ， 不 局 限于 2 也 不 必 都 相同 。 这 个 语言 的 选择 定义 了 一 个 5 上 的 函数 ; 
(一 个 代入 )， 并 且 对 于 每 个 符号 a 我 们 用 s(a) 来 表示 L。 

如 采 w = aia2…as 是 一 个 3" 中 的 串 ， 则 s(w) 是 所 有 满足 如 下 条 件 的 xixw2…x 形式 的 串 的 语言 ; 
对 于 i = 1, 2, …, n， 捉 属于 语言 (a;)。 换 名 话说，s(w) 是 语言 s(a1) s(a2)…s(as) 的 连接 。 我 们 可 以 
进一步 扩展 * 的 定义 使 它 可 以 应 用 于 语言 : 对 于 Z 中 的 所 有 串 w，s(D) 是 s(w) 的 并 。 


例 7.22 假设 *(0) = {o" 加 12>1} 且 s(1) = {aa, bb}。 也 就 是 说 ，s 是 字母 表 = {0,1} 上 的 一 个 
代入 。 语 言 *(0) 是 由 多 于 一 个 的 后 面 跟着 同样 数目 的 b 构 成 的 串 的 集合 ， 同 时 语言 s(1) 是 由 串 aa 
和 bb 构成 的 有 限 语言 。 

设 w = 01。 则 s(w) 是 语言 s(0)s(1) 的 连接 。 更 确切 地 说 ，s(w) 由 所 有 a"b"aa 和 arb"+? 形式 的 串 构 
成 ， 其 中 n 宇 1。 

现在 ,假设 L = L(0”)， 即 所 有 仅 由 0 构成 的 串 的 集合 。 则 s(L) = (s(0))*。 这 个 语言 是 所 有 如 下 
形式 的 串 的 集合 : 

anibniamb"2 .CKP 


对 于 茶 个 k 宇 0 以 及 任何 选择 的 正 整数 的 序列 n,n2,…, mx。 它 包括 像 : &, aabbaaabbb 和 abaabbabab 
这 样 的 串 。 加 


定理 7.23 “如 果 Z 是 字母 表 为 2 的 上 下 文 无 关 语 言 ， 且 s 是 上 满足 如 下 条 件 的 代入 : 对 于 
任何 中 的 4， 有 s(@) 是 CFL。 则 s( 了 D) 是 CFL。 

证 明 ”基本 的 思想 是 : 我 们 可 以 获得 一 个 L 的 CFG， 并 且 对 于 每 个 终结 符 a;， 用 语言 s(a) 的 一 
个 CFG 的 开始 符号 来 替代 它 。 这 样 所 得 的 是 一 个 产生 s( 了 的 CFG。 然 而 ， 为 了 使 这 个 想法 能 够 实 
现 还 需要 做 许多 细致 的 工作 。 

形式 化 一 些 的 说 ， 从 每 个 相关 语言 的 文法 出 发 ， 比 如 G = (VY，2, P, 5) 是 L 的 文法 且 对 于 每 
个 中 的 4 有 Gs = (Yo Ts, Pa, Sa)。 由 于 我 们 可 以 给 所 需 的 变 元 取 任 何 名 字 ， 所 以 我 们 可 以 使 这 些 
变 元 的 集合 互相 分 离 。 也 就 是 说 ， 不 存在 同时 属于 两 个 或 两 个 以 上 V 或 者 Vo 中 的 符号 4。 这 样 选 
择 名 字 的 目的 是 使 我 们 在 把 这 些 文法 的 产生 式 合并 为 一 个 产生 式 的 集合 时 ， 不 会 碰巧 混淆 了 两 
个 不 同文 法 中 的 产生 式 ， 因 而 也 不 就 会 具有 不 像 任何 给 定 文法 中 推导 的 推导 。 

对 于 s(L)， 我 们 构造 一 个 新 的 文法 G'=(V',T',P',5) 如 下 : 

。V' 是 V 和 所 有 对 应 于 > 中 的 a 的 Vo 的 并 。 

.7 是 所 有 对 应 于 中 的 a 的 7, 的 并 。 

*P' 包 括 : 

1) 所 有 对 应 于 2 中 的 a 的 Pe。 
2) P 的 产生 式 ， 只 不 过 对 于 任何 体 中 出 现 的 终结 符 a 都 用 % 代替 。 

因此 , 所 有 G' 中 的 语法 分 析 树 在 开头 的 地 方 都 和 G 中 的 语法 分 析 树 类 似 , 不 过 它 的 产物 不 属于 2， 
而 是 在 该 树 中 有 一 条 边线 ， 在 该 线 上 所 有 的 节点 的 标号 都 是 某 个 中 a 所 对 应 的 $。。 并 且 ， 从 每 
个 这 样 的 节点 都 悬挂 出 一 棵 Go 的 语法 分 析 树 ， 而 且 它 的 产物 是 语言 s(o) 中 的 终结 符 串 。 图 7-8 给 
出 了 一 棵 典型 的 这 样 的 语法 分 析 树 。 


S 





xX] 7D Xx, 
图 7-8 一 棵 C 中 的 语法 分 析 树 ， 它 开始 于 一 棵 G 中 的 分 析 树 ， 结 束 于 很 多 语法 分 析 树 ， 
且 每 棵 这 种 语法 分 析 树 属于 某 个 文法 Cs 


现在 ， 我 们 必须 证 明 这 个 构造 方法 确实 可 行 ， 也 就 是 说 G' 确实 产生 语言 s(L)。 形 式 化 地 说 : 
。 串 w 属 于 ZCG) 当 且 仅 当 w 属 于 s(D)。 


上 
Co 
Oo 


( 当 ) 假设 w 属 于 (CD)。 则 存在 某 个 串 x = aa…a, 属于 L， 且 对 于 i = 1, 2,…,n 有 s(a;) 中 的 串 x 
满足 mw = zx…z。 则 G" 中 由 G 的 产生 式 用 $. 替换 了 每 个 a 之 后 的 部 分 将 会 产生 一 个 像 x 的 串 ， 只 不 
过 在 该 串 中 所 有 的 Ga 都 用 S. 替换 了 。 这 个 串 是 S-,S., … SS. 。w 的 推导 的 这 个 部 分 由 图 7-8 中 上 面 的 
三 角形 给 出 。 


> 
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由 于 每 个 Gs 的 产生 式 同时 也 都 是 G' 的 产生 式 ， 因 此 从 5 到 志 的 推导 也 都 是 G' 中 的 推导 。 这 
些 推导 的 语法 分 析 树 由 图 7-8 中 下 面 的 三 角形 给 出 。 由 于 G 的 这 棵 语法 分 析 树 的 产物 是 zt:z = 
w， 因 此 得 出 结论 ; w 属 于 L(G')。 

( 仅 当 ) 现在 假设 w 属 于 L(G')。 我们 将 要 证 明 w 的 语法 分 析 树 一 定 是 图 7-8 中 的 树 的 形式 。 原 
因 是 每 个 G 和 对 应 于 中 a 的 G。 的 变 元 都 是 不 相交 的 。 因 此 ， 从 变 元 5 开始 的 树 的 顶部 二 定 只 使 
用 了 G 的 产生 式 ， 直 到 推导 出 某 个 符号 5 为止， 并且 5S; 以 下 的 部 分 一 定 只 使 用 了 文法 G 的 产生 
式 。 结 果 是 ， 只 要 w 有 一 棵 语法 分 析 树 T7， 我 们 就 可 以 确定 一 个 L(G) 中 的 串 aiq2…a,， 以 及 语言 
s(Q) 中 的 串 x;， 满 足 : 

局 训 二 和 为 ，, 关 月 

2. 串 SS。…Sw, 是 一 棵 从 7 中 删 掉 一 些 子 树 之 后 所 得 的 树 的 产物 (如 图 7-8 所 示 )。 
但 是 串 xix2…x 属于 s(L)， 原 因 是 它 是 用 串 x; 代替 每 个 ai 之 后 所 得 到 的 。 因 此 得 出 结论 ; w 属 于 
s(L)。 加 


7.3.2 代入 定理 的 应 用 


用 定理 7.23 能 证 明 很 多 CFL 的 封闭 性 ， 因 为 我 们 已 经 在 正则 语言 中 学 习 过 这 些 性 质 所 以 比较 
熟悉 。 我 们 将 在 一 个 定理 中 把 它们 全 列 出 来 。 


定理 7.24 上 下 文 无 关 语 言 在 以 下 运算 下 是 封闭 的 : 

1 下。 

2. 连接 。 

3. 团 包 () 和 正 闭 包 ( + )。 

4. 同 态 。 

证 明 以 上 每 个 的 证 明 都 只 需 我 们 建立 合适 的 代入 。 下 面 每 条 证 明 都 只 是 把 一 个 上 下 文 无 关 

语言 代入 另 一 个 上 下 文 无 关 语 言 中 ， 因 而 根据 定理 7.23 可 知 所 得 到 的 仍然 是 CFL、。 

1. 并: 设 Li 和 Ls 都 是 CFL， 则 LiULs 是 语言 s(L)， 其 中 L 是 语言 {1, 2}， 且 代入 s 的 定义 为 ， 
s(1)=L1, s(2)=L, 

2. 连接 : 再 次 设 LI 和 都 是 CFL， 则 LiLs 是 语言 s(L)， 其 中 是 语言 {12}， 且 代 入 s 的 定义 和 
情况 (1) 中 相同 。 

3. 财 包 和 正 财 包 : 设 L 是 CFL, LL 是 语言 {1 ， 且 s 是 代入 s(1) = 五 ， 则 Z = s(D)。 类 似 地 ， 如 
末 L 是 语言 {1}+ ， 则 Li+ = SCD)。 

4. 假 设 L 是 字母 表 > 上 的 CFL， 且 h 是 上 的 同 态 。 设 s 是 一 个 代入 ， 且 它 把 每 个 5 中 的 符号 
a 用 只 有 一 个 串 h(a) 的 语言 来 代替 。 也 就 是 说 ， 对 于 所 有 中 的 a， 有 s(a) = {h(a)}。 则 Ah(L) 
= s(D)。 加 


7.3.3 反 转 


CFL 在 反 转 运算 下 也 是 封闭 的 。 我 们 不 能 使 用 代入 定理 ， 但 有 一 个 使 用 文法 的 简单 构造 
为 计 。 
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定理 7.25 如 果 Z 是 CFL， 则 严 也 是 。 

证 明 设 L = L(G)， 其 中 G = (V,T, P, 5) 是 某 个 CFL。 构造 G* = (V,T, P*, 5)， 其 中 P* 是 每 个 P 
中 产生 式 的 “ 反 转 ”。 也 就 是 说 ， 如 果 A4 一 a 是 G 的 一 个 产生 式 ， 则 A 一 ex 是 G* 的 一 个 产生 式 。 很 
容易 通过 对 G 和 G 中 推导 的 长 度 进行 归纳 来 证 明 L(G*) = x。 实质 上 ， 所 有 G* 的 句 型 都 是 G 的 句 
型 的 反 转 ， 反 之 亦 然 。 我 们 把 该 定理 的 形式 化 证 明 留 作 习 题 。 口 


7.3.4 与 正则 语言 的 交 
CFL 在 交 运 算 下 不 封闭 。 下 面 是 一 个 说 明 它 不 封 闲 的 简单 例子 。 


例 7.26 我 们 从 例 7.19 中 知道 语言 
iL= {0 
不 是 上 下 文 无 关 语 言 。 然 而 ， 下 面 的 两 个 语言 都 是 上 下 文 无 关 的 : 
“40 ml 1 
Tom {nat i 1 
五 的 一 个 文法 是 : 
4 一 4 有 
4 一 041101 
B—2B812 


在 这 个 文法 中 ，A 产 生 所 有 0"1" 形 式 的 串 ，B 产 生 所 有 的 2 的 串 。L 的 一 个 文法 是 : 
S—AB 
4 一 0410 
B 一 182112 


它 的 作用 和 厂 类 似 ， 只 不 过 由 4 产生 所 有 0 的 串 ，B 产 生 所 有 1 和 2 个 数 相 同 的 串 。 
然而 ,，L = Zimz2。 原 因 很 简单 ， 只 要 注意 到 盖 要 求 0 和 1 的 个 数 相 同 ， 而 乙 要 求 相 同 数目 的 1 
和 2。 因 此 一 个 同时 属于 这 两 个 语言 的 串 一 定 具 有 相同 数目 的 全 部 三 个 字符 ， 因 而 一 定 属于 L。 
如 果 CFL 在 交 运 算 下 封闭 ， 则 能 够 证 明 L 是 上 下 文 无 关 的 ， 但 其 实 它 是 一 个 为 假 的 命题 。 因 
此 得 出 结论 : CFL 在 交 运 算 下 不 封闭 。 口 


另 一 方面 ， 对 于 交 运 算 来 说 存在 一 个 较 弱 的 结论 : 上 下 文 无 关 语 言 在 “与 一 个 正则 语言 求 
交 ” 的 运算 下 是 封闭 的 。 下 面 的 定理 给 出 了 形式 化 的 陈述 和 证 明 。 


定理 7.27 如 果 L 是 CFL 有 RR 是 正则 语言 ， 则 LNR 是 CFL。 291 
证 明 该 定理 的 证 明 需 要 CFL 的 下 推 自 动机 表示 ， 以 及 正则 语言 的 有 穷 自动 机 表示 ， 男 外 还 
有 定理 4.8 证 明 的 推广 ， 在 该 定理 中 我 们 “并 行 地 ”运行 两 台 有 穷 自 动机 来 获得 它们 语言 的 交 。 
这 里 ， 我 们 “并 行 地 ”运行 一 台 有 穷 目 动机 和 一 个 PDA， 而 所 得 的 结果 是 另 一 个 PDA， 如 图 7-9 
所 示 。 


iD 
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图 7-9 并 行 地 运行 一 个 PDA 和 一 个 FA 来 创建 一 个 新 的 PDA 
形式 化 地 ， 设 
P=(On ,L606n, gn, Do Fp) 
是 一 个 以 终结 状态 方式 接受 L 的 PDA， 并 且 设 
A=(Q4, 2£,064,gq4, Fa) 
是 一 个 R 的 DFA。 构 造 PDA 
P'=(Qr x O04, 2,T,6, (gr, qa), Zo, Fp x Fa) 

其 中 6((q,p),a, 加 定义 为 所 有 满足 如 下 条 件 的 对 ((7, s); »): 

1. s=6,(p,a),， 并 且 

2. 对 (7, 力 属 于 6r(9g,a, 六 。 
也 束 是 说 ， 对 于 PDA P 的 每 步 移动 ， 我 们 都 可 以 在 PDA P' 中 做 相同 的 移动 ， 并 且 在 P' 的 状态 的 第 
二 个 分 量 始终 保持 为 DFA A 的 状态 。 注 意 ，a 或 者 是 中 的 一 个 符号 或 者 是 e。 在 前 面 的 情况 
下 ，6(p,a) =6,(p,a)， 如 果 a =e 则 6(p,a) = p; 也 就 是 说 ， 当 P 对 于 e 输 入 做 移动 时 A 不 改变 状态 。 

很 容易 通过 对 PDA 执 行动 作 的 数量 进行 归纳 来 证 明 有 (qs, w, Zo) 片 (gq, e, ) 当 且 仅 当 有 
((qr, 44), w, 2Z0) 片 ((q,p), 2;， 其 中 p=6(q,,w) 。 我 们 把 这 些 归纳 留 作 习 题 . 因为 (9, 刀 是 已 的 
接受 状态 当 且 仅 当 gq 是 P 的 接受 状态 ， 且 p 是 4 的 接受 状态 ， 因 此 得 出 结论 ， P' 接 受 w 当 且 仅 当 P 
和 A 都 接受 w， 即 w 属 于 LR。 口 


例 7.28 ”在 图 6-6 中 我 们 设计 了 叫做 F 的 PDA， 它 能 够 以 终结 状态 方式 接受 如 下 语言 ， 对 于 让 
和 else 能 够 在 C 程 序 中 出 现 次 序 的 规则 ， 该 语言 中 的 串 为 最 小 的 违反 这 些 规 则 的 由 讳 ie 构 成 的 串 。 
称 该 语言 为 L。 PDA F 的 定义 为 


Pr= ({P， d， r}, 0 eb {2, Xo}, OF, p, Xo, {r}) 


其 中 6r 由 以 下 规则 构成 : 

1. Or(p, £, Xo) = {(q, ZX0)}。 

2. 0r(q,i, 2) = {(q, 22)}。 

3. 0r(q, e,2) = {(q, 5)}。 

4. 6r(q, £, Xo) = {(7, £)}。 

现在 ， 引 入 一 个 有 穷 目 动机 

A=({s ry {eh Oo Ss, Not) 

它 能 够 接受 所 有 语言 ze" 中 的 串 ， 也 就 是 所 有 i 后 面 跟着 e 这 种 形式 的 串 。 称 这 个 语言 为 R。 转 移 
国 数 0 由 以 下 规则 给 出 : 

a) Das, 六 和 

b) 64(s,e)=t。 

c) Ga(t, e) =1。 
严格 地 说 ， 就 像 定理 7.27 中 所 假定 的 那样 ，A 并 不 是 个 DFA， 原 因 是 当 处 在 状态 ! 且 看 到 的 输入 
为 i 时 缺少 一 个 死 状态 。 然 而 ， 对 于 NFA 来 说 构造 过 程 是 相同 的 ， 因 为 我 们 构造 的 PDA 可 以 是 非 
确定 型 的 。 在 这 种 情况 下 ， 构造 出 的 PDA 实 际 上 是 确定 型 的 ， 尽 管 它 对 于 某 些 输入 序列 会 “ 死 
1 。 

我 们 将 会 构造 一 个 PDA 

Pas({D,q,ri x {s,t} Ai, ee}, {2, Xo}, Op, 5), Mo {ry x {so7) 

以 下 是 根据 PDA FF 的 规则 (从 1 到 4 的 数字 ) 和 DFA 4 的 规则 (字母 a, b 或 c<) 编号 的 转移 函数 6。 
在 PDA D 做 ge 转移 时 并 不 使 用 A 的 规则 。 注 意 ， 我 们 以 一 种 “偷懒 的 ”方式 来 构造 这 些 规则 : 从 P 
的 状态 出 发 (该 状态 同时 也 是 F 和 4 的 开始 状态 )， 并 且 仅 当 我 们 发 现 P 能 够 进入 的 F 和 A 的 状态 对 
时 为 其 他 状态 构造 规则 。 

1: oO((p, 3), ,Xo) = {((q, s), ZX0)}。 

2a: 0((g, $s),i,2) = {((g, s), Z2)}。 

3b: 0((g, s), e, 2) = {((q, 7), 2)}。 

4: ”6((g, s), £, Xo) = {((7, 5), 2)}。 注 意 : 其 实 可 以 证 明 这 条 规则 是 永远 无 法 使 用 的 。 原 因 是 看 

不 到 e 时 不 可 能 从 堆栈 中 弹出 ， 而 一 旦 P 看 到 e， 它 的 状态 的 第 二 个 分 量 就 会 变 成 1。 

3c: 0((q, 1),e,2)={((g,7), 2)}。 

4: (gq,D),e, Xo) = {((r,D), 2)}。 

语言 LNR 是 者 干 个 i 后 面 跟 着 比 它 多 一 个 的 e 的 串 的 集合 ， 即 {ire" + ! 1 n 之 0}。 该 集合 正 是 由 
这 种 违反 让 else 规 则 的 串 构成 的 : 一 段 的 让 后 面 是 一 段 的 else。 该 语言 明显 是 CFL， 由 具有 产生 式 
S$ 一 iSe 上 1 e 的 文法 产生 。 z 

注意 , 该 PDA PP 接受 语 言 LNR。 在 把 Z 压 入 堆栈 之 后 , 它 对 于 输入 的 i 的 反应 是 压 和 人 更 多 的 2Z， 
同时 保持 在 状态 (q, s)。 一 旦 它 看 到 一 个 e， 它 就 转 到 状态 (q, 力 同 时 开始 从 堆栈 中 弹出 。 在 暴露 
在 栈 顶 之 前 如 果 它 看 到 了 e 就 会 死机 。 此 时 ， 它 自发 地 转移 到 状态 (7, 〗) 同 时 接受 。 口 


由 于 已 知 CFL 在 交 运 算 下 不 封闭 ， 但 是 在 与 正则 语言 的 交 运 算 下 是 封闭 的 ， 由 此 可 知 CFL 的 
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集合 差 以 及 补 运算 。 下 面 的 定理 总 结 了 这 些 性 质 。 


定理 7.29 下 面 的 结论 对 于 CFL L, Li 和 以 及 正则 语言 R 都 是 成 立 的 。 

1 ,也 一 丸 是 上 下 义 无 关 语言 。 

2. 也 不 一 定 是 上 下 文 无 关 语 言 。 

3. 一 蕊 不 一 定 是 上 下 文 无 关 的 。 

证 明 ”对 于 (1)， 注意 到 L 一 R = LN R。 如 果 R 是 正则 的 ， 则 由 定理 4.5 知 也 是 正则 的 。 则 
由 定理 7.27 知 L 一 R 是 CFL、。 

对 于 (2)， 假 设 当 ZL 是 上 下 文 无 关 的 时 工 总 是 上 下 文 无 美的 。 则 由 于 


LNL=- LUL 


并 且 CFL 在 并 运算 下 是 封闭 的 ， 因 此 可 得 CFL 在 交 运 算 下 也 是 封闭 的 。 然 而 ， 我 们 已 经 由 例 7.26 
中 得 知 它 并 不 是 。 

最 后 ， 来 证 明 (3)。 已 知 对 于 任何 字母 表 5 来 说 >* 都 是 CFL， 给 这 个 正则 语言 设计 一 个 文法 
或 者 PDA 是 很 容易 的 。 因 此 ， 如 果 当 志和 蕊 都 是 CFL 时 Li 一 总 是 CFL， 那 么 可 以 得 出 当 L 是 CFL 
时 > 一 LL 也 总 是 CFL。 然 而 ， 当 我 们 选择 了 合适 的 字母 表 时 Z* 一 L 就 是 工 。 因 此 ， 同 (2) 相 矛盾 ， 
由 此 矛盾 证 明了 Li 一世 不 一 定 是 CFL.。 口 


7.3.5 逆 同 态 


现在 来 回顾 4.2.4 节 中 称 为 “ 逆 同 态 ” 的 运算 。 如 果 j 是 一 个 同 态 ， 且 Z 是 任何 语言 ， 则 /-!(D) 
尽 所 有 满足 h(w) 属 于 L 的 串 w 的 集合 。 图 4-6 给 出 了 关于 正则 语言 在 逆 同 态 运 算 下 的 封闭 性 的 证 明 。 
当时 ， 我 们 设计 了 一 个 有 穷 自 动机 ， 它 在 其 输入 上 应 用 了 一 个 同 态 x+， 因此 能 够 模拟 另 一 个 输入 
序列 为 h(a) 的 有 穷 自动 机 。 

我 们 可 以 用 非常 类 似 的 方法 来 证 明 CFL 的 这 种 封闭 性 ， 只 不 过 使 用 PDA 来 代替 有 穷 自动 机 。 
然而 ， 当 我 们 使 用 PDA 时 会 有 一 个 在 使 用 有 穷 自动 机 时 不 会 出 现 的 问题 。 有 穷 自动 机 对 于 一 系 
列 的 输入 的 反应 是 状态 转移 ， 因 而 我 们 所 关心 的 构造 出 来 的 自动 机 看 上 去 就 像 有 穷 自动 机 在 一 
个 输入 符号 时 的 一 步 移动 。 

当 该 目 动机 是 PDA 时 ， 情 况 就 不 同 了 ， 一 系列 的 移动 可 能 看 上 去 不 像 一 个 输入 符号 下 的 一 
步 移动 。 特 别 是 ， 做 n 个 移动 时 ，PDA 可 以 从 它 的 堆栈 中 弹出 n 个 符号 ,而 一 个 移动 只 能 弹出 一 
个 符号 。 因 此 ， 类 似 于 图 4-6 中 构造 过 程 的 PDA 的 构造 过 程 在 相 比 之 下 就 有 些 复杂 了 ， 图 7-10 是 
一 个 框架 图 。 关 键 的 思想 是 ， 当 读 入 了 输入 符号 a 以 后 ， 把 h(a) 放 入 “缓冲 区 ”。h(a) 中 的 符号 一 
次 一 个 地 被 读 入 ， 然 后 传 给 被 模拟 的 PDA。 只 有 当 该 缓冲 区 为 空 时 该 构造 的 PDA 才 读 入 它 的 另 
一 个 和 输入 符号 同时 对 它 应 用 同 态 运算 。 我 们 将 在 下 一 个 定理 中 形式 化 地 刻画 该 构造 过 程 。 


定理 7.30 设 Z 是 CFL， 且 1 是 同 态 ， 则 太 !( 亿 是 CFL 。 

证 明 假设 把 h 应 用 于 字母 表 了 3 中 的 符号 并 且 得 到 关中 的 串 。 假 设 Z 是 字母 表 T 上 的 语言 。 就 
像 上 面 提 到 的 那样 ， 我 们 从 一 个 以 终结 状态 方式 接受 [的 PDA P = (QO, 7, 芽 6, go, 如, 丰 出 发 来 构 
造 一 个 新 的 PDA : 


接受 /拒绝 





图 7-10 构造 一 个 PDA， 它 接受 的 是 一 个 给 定 的 PDA 所 接受 的 逆 同 态 


P'=(0,, > 0 (go, E), 20,F x {e}) (7-1) 


其 中 ， 

1. 0 是 满足 以 下 条 件 的 (q,7) 对 的 集合 : 
(a) 4 是 C 中 的 状态 ， 且 
(b) x 是 与 某 个 中 的 符号 a 相对 应 的 串 h(a) 的 前 级 (不 一 定 是 真 前 级 )。 
也 就 是 说 ，P' 的 状态 的 第 一 部 分 是 P 的 状态 ， 而 第 二 部 分 是 缓冲 区 。 我 们 假设 该 缓冲 区 会 
被 周期 性 地 装 入 串 xa)， 接 着 当 我 们 用 它 里 面 的 符号 来 作为 被 模拟 的 PDA P 的 输入 时 ， 它 
可 以 从 它 的 前 部 输出 以 及 去 除 符 号 。 注 意 ， 因 为 3 是 有 限 的 ， 且 对 于 每 个 a 来 说 h(a) 也 都 
是 有 限 的 ， 因 此 已 只 有 有 限 个 状态 。 

2.6' 的 定义 由 以 下 规则 组 成 : 


(a) 对 于 所 有 中 的 符号 a、 所 有 Q 中 的 状态 49 以 及 IT 中 的 堆栈 符号 X 有 6'((q, 8), a, X) = {((q， 


h(a)), X)}。 广 意 此 处 的 a 不 能 为 e。 当 缓冲 区 为 空 时 ，P' 就 可 以 消耗 它 的 下 一 个 输入 符 

号 4 同时 把 h(a) 放 入 缓冲 区 。 
(b) 如 果 6(q,b, XX 包含 (p, 7)， 其 中 b 属 于 7 或 者 b= s， 则 

0'((qg, bx), £, X) 
包含 ((p, 如, )。 也 就 是 说 ，P' 总 可 以 选择 使 用 它 的 缓冲 区 的 前 部 来 模拟 P 的 一 步 移动 。 如 
果 b 是 7 中 的 一 个 符号 ， 则 该 缓冲 区 不 能 为 空 ， 但 是 如 果 b= 的 话 ， 则 该 缓冲 区 可 以 为 空 。 
3. 注 意 ， 正 如 式 (7-1) 中 定义 的 那样 ，P' 的 开始 状态 是 (go, a)， 也 就 是 说 ，P' 开始 于 P 的 开始 

状态 以 及 一 个 空 的 缓冲 区 。 
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4. 同样 ， 按 照 式 (7-1) 的 定义 ，P' 的 接受 状态 是 满足 如 下 条 件 的 状态 (q, e): 其 中 的 q 是 P 的 某 
个 接受 状态 。 
下 面 的 命题 刻画 了 P' 和 P 之 间 的 关系 : 


(go, h(w), 20) 时 (p, 2， ») 当 且 仅 当 ((co， 中) w, 20) 村 ((p, a), 2， 7 


两 个 方向 的 证 明 都 是 通过 对 这 两 个 自动 机 所 做 的 移动 的 数目 进行 归纳 来 完成 的 。 在 “ 当 ” 的 部 
分 中 ， 需 要 注意 的 是 : 一 旦 P' 的 缓冲 区 非 空 ， 它 就 不 能 继续 读 入 输入 且 只 能 模拟 PP， 直到 该 缓冲 
区 再 次 为 空 〈 尽 管 缓冲 区 为 空 时 ， 它 仍然 可 以 模拟 P) 。 我 们 把 进一步 的 证 明细 节 留 作 习 题 。 

一 旦 我 们 接受 了 P' 与 P 之 间 的 关系 ， 我 们 就 能 够 注意 到 P 接 受 h(w) 当 且 仅 当 P' 接 受 w， 原 因由 
我 们 定义 P' 的 接受 状态 的 方式 可 知 。 因 此 有 L(P”) = h-1(L(P))。 口 


7.3.6 习题 


习题 7.3.1 证 明 CFL 在 下 列 运 算 下 的 封闭 性 : 
* a) 习题 4.2.6(c) 中 定义 的 init 运 算 。 提 示 : 从 语言 L 的 CNF 文 法 出 发 。 
* b) 习题 4.2.2 中 定义 的 La 运算 。 提 示 : 从 语言 L 的 CNF 文 法 出 发 。 
0) 习题 4.2.11 中 定义 的 cycle 运 算 。 提 示 : 试 试 基于 PDA 的 构造 过 程 。 
习题 7.3.2 考虑 以 下 两 个 语言 : 
b= {ab”c"|n,m>0} 
DL = {ab"cm | n,m>>0} 
a) 通过 分 别 给 出 上 述 语言 的 文法 来 证 明 这 些 语言 都 是 上 下 文 无 关 的 。 
! b) LN 是 CFG 吗 ? 证 明 你 的 结论 的 正确 性 。 
'! 习题 7.3.3 证 明 CFL 在 下 列 运 算 下 不 封闭 : 
* a) 习题 4.2.6(a) 中 定义 的 min 运 算 。 
b) 习题 4.2.6(b) 中 定义 的 max 运 算 。 
c) 习题 4.2.8 中 定义 的 half 运 算 。 
d) 习题 4.2.7 中 定义 的 alt 运 算 。 
习题 7.3.4 两 个 串 w 和 x 的 重组 (shuffle) 是 指 所 有 能 够 由 任意 的 把 w 和 x 互相 插入 所 得 的 申 
的 集合 。 更 加 确切 地 说 ，spzje(w, 习 是 满足 下 列 条 件 的 串 z 的 集合 : 
1. 每 个 z 中 的 位 置 都 可 以 分 配给 w 或 者 x， 但 不 能 同时 分 配给 两 者 。 
2. z 中 分 配给 w 的 位 置 从 左 到 右 连 起 来 就 构成 了 w。 
3.z 中 分 配给 x 的 位 置 从 左 到 右 连 起 来 就 构成 了 x。 
例如 ， 如 果 w = 01 且 x = 110， 则 shuffie(01, 110) 是 串 的 集合 ， {01110， 01101, 10110, 10101, 11010， 
11001}。 下 面 来 说 明理 由 ， 比 如 第 四 个 串 10101， 可 以 由 以 下 方式 来 验证 : 它 的 2 和 5 的 位 置 属于 
01，1, 3 和 4 的 位 置 属于 110。 而 第 二 个 串 01110 有 三 种 验证 方式 ，: 把 位 置 1 和 2 或 3 或 4 分 配给 01， 
剩 下 的 三 个 位 置 分 配给 110。 也 可 以 定义 语言 的 重组 shwffe(Li， 忆 ) 为 对 所 有 工 中 的 串 w 以 及 中 的 
串 x， 由 shuffle(w, x) 的 并 构成 的 语言 。 


i 


a) shuffie(00, 111) 是 什么 ? 
*b) 如 果 Li = LL(0”) 且 LL = {0"1"1n 宇 0}， 则 shuffle(L1, Z) 是 什么 ? 
#! c) 证 明 : 如 果 L1 和 都 是 正则 语言 ， 则 shwuffle(Li, ) 也 是 正则 语言 。 提 示 : 从 Li 和 的 DFA 
出 发 。 
1d) 证 明 : 如 果 L 是 CFL 且 R 是 正则 语言 ， 则 shufflie(L, R) 是 CFL。 提 示 : 从 L 的 PDA 和 R 的 DFA 
出 发 。 
!1 6) 给 出 一 个 反例 证 明 : 如 果 和 ZL 都 是 CFL， 则 shuffle(L1, 工 ) 不 一 定 是 CFL，。 
*1! 习题 7.3.5 ” 串 y 被 称 为 另 一 个 串 x 的 置换 (permutation)， 如 果 可 以 通过 把 > 中 的 符号 经 过 重新 排 
列 后 得 到 x。 例 如 ， 串 x = 011 的 置换 为 110, 101 和 011。 如 果 Z 是 一 个 语言 ， 则 Perm(Z 是 所 有 天 中 的 
串 的 置换 的 集合 。 例 如 ， 若 L = {0"1"172 关 0}， 则 perm(Z) 是 具有 相同 数目 的 0 和 1 的 串 的 集合 。 
a) 给 出 一 个 使 得 Perm(ZD) 不 是 正则 的 字母 表 {0, 1} 上 的 正则 语言 Z 的 例子 。 证 明 结果 的 正确 性 。 
提示 : 试 着 找到 一 个 置换 为 全 部 具有 相同 数目 的 0 和 1 的 串 的 正则 语言 。 
b) 给 出 一 个 使 得 perm( 世 不 是 上 下 文 无 关 的 字母 表 {0, 1,2} 上 的 正则 语言 L 的 例子 。 
0) 证明: 对 于 两 个 符号 的 字母 表 上 的 每 个 正则 语言 L，perm(D) 是 上 下 文 无 关 的 。 
习题 7.3.6 给 出 定理 7.25 的 形式 化 证 明 : CFL 在 反 转 运算 下 是 封闭 的 。 
习题 7.3.7 通过 证 明 以 下 结论 来 完成 定理 7.27 的 证 明 : 
(gp w, 20) 片 (9 e, 
当 且 仅 当 ((qr, 0),w, Za 片 ((q,p),s;D， 其 中 P=6(p4sw)， 


7.4 CFL 的 判定 性 质 


现在 ， 孝 虑 对 于 上 下 文 无 关 语 言 来 说 能 够 回答 哪些 类 型 的 问题 。 类 似 于 关于 正则 语言 的 判 
定性 质 的 4.3 市 ， 问 题 的 出 发 点 总 是 CFL 的 某 种 表示 一 一 文法 或 者 PDA。 由 于 从 6.3 节 知道 可 以 在 
文法 和 目 动 机 之 间 相 互 转化 ， 因 此 可 以 假定 给 出 的 是 任何 CEL 的 表示 ， 只 要 方便 即 可 。 

读者 将 会 发 现 对 于 CFL 来 说 只 有 很 少 的 东西 能 够 被 判定 ， 我 们 能 够 做 的 最 重要 的 事情 就 是 
判断 一 个 语言 是 否 为 空 以 及 一 个 给 定 的 串 是 否 属 于 该 语言 。 因 此 在 本 节 结 束 时 将 给 出 一 个 简单 
的 讨论 ， 该 讨论 是 关于 将 在 后 面 .( 第 9 章 ) 证 明 为 “不 可 判定 的 ”那些 类 的 问题 的 ， 也 就 是 说 ， 
不 存在 解决 它们 的 算法 本 节 的 内 容 。 从 关于 一 个 语言 的 文法 和 PDA 表 示 之 间 互 相 转化 的 复杂 性 
的 事实 开始 。 对 于 一 个 CFL 的 给 定 的 表示 来 说 ， 判 断 任何 该 CFL 性 质 的 效率 总 是 会 牵扯 到 上 面 的 
这 些 考 虑 。 


7.4.1 在 CFG 和 PDA 之 间 互 相 转 化 的 复杂 性 


在 开始 考虑 CFL 的 判定 问题 的 算法 之 前 ， 先 来 考虑 一 下 从 一 种 表示 到 另 一 种 表示 的 转化 的 
复杂 性 。 当 给 定 一 个 判定 算法 时 ， 如 果 给 出 该 语言 的 形式 和 该 算法 所 需 的 形式 不 同 ， 那 么 这 个 
转化 过 程 的 运行 时 间 总 是 该 判定 算法 的 代价 的 一 部 分 。 

在 下 文中 ， 设 n 为 整个 PDA 或 者 CFG 的 表示 的 长 度 。 用 这 个 参数 来 作为 文法 或 自动 机 的 大 小 
的 表示 是 比较 “ 粗 烽 ”的 。 之 所 以 这 么 说 ， 原 因 是 某 些 算法 的 运行 时 间 如 果 用 更 加 详细 的 参数 
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来 刻画 将 会 更 加 精确 ， 这 些 参数 比如 : 文法 中 变 元 的 数目 ，PDA 中 转移 函数 中 出 现 的 堆栈 符号 
串 的 长 度 之 和 等 。 

然而 ， 评 测 总 长 度 的 方式 对 于 辨别 最 重要 的 问题 来 说 已 经 足够 了 ， 这 里 所 说 的 最 重要 的 癌 
题 是 : 一 个 算法 是 否 和 输入 长 度 成 线性 关系 (也 就 是 说 ， 当 输入 长 度 增加 时 ， 它 运行 的 时 间 是 
人 否 增 加 的 更 快 )， 是 否 和 长 度 成 指数 关系 〈 也 就 是 说 ， 你 只 能 对 很 小 规模 的 实例 做 转化 ) ， 或 着 
它 是 否 是 某 个 非 线性 多 项 式 (也 就 是 说 ， 你 可 以 运行 该 算法 ， 即 使 是 很 大 的 实例 也 可 以 ， 只 不 
过 所 需 的 时 间 将 会 相当 长 )。 

至 此 已 经 见 到 过 很 多 与 输入 的 大 小 成 线性 的 转化 。 由 于 它们 只 需要 线性 时 间 ， 因 此 它们 作 
为 输出 产生 的 表示 的 产生 速度 很 快 ， 而 且 产 生 输 出 的 大 小 也 和 输入 大 小 可 比 。 这 些 转 化 为 : 

1. 通过 定理 6.13 中 的 算法 把 CFG 转 化 为 PDA。 

2. 通 过 定理 6.11 中 的 构造 方法 来 把 以 终结 状态 方式 接受 的 PDA 转 化 为 以 空 栈 方式 接受 的 

PDA 。 

3. 通 过 定理 6.9 中 的 构造 方法 来 把 以 空 栈 方式 接受 的 PDA 转 化 为 以 终结 状态 方式 接受 的 PDA。 

男 一 方面 ， 把 PDA 转 化 为 文法 (定理 6.14) 的 运行 时 间 比 较 复 杂 。 首 先 ， 注 意 ， 输 入 的 总 长 
度 ? 显 然 是 状态 和 堆栈 符号 数 的 上 界 , 因此 为 文法 构造 出 的 [pXgq] 形 式 的 变 元 不 会 超过 Ww 个 。 然 而， 
如 采 该 PDA 中 存在 把 大 量 符号 放 入 堆栈 中 的 转移 ， 则 该 转化 过 程 的 运行 时 间 可 以 是 指数 的 。 注 
意 一 个 规则 最 多 可 以 把 n 个 符号 放 入 堆栈 中 。 

如 未 从 一 个 “6(q, a, 各 包含 (ro, 了 FY…Y)” 形 式 的 规则 来 回顾 文法 产生 式 的 构造 过 程 ， 就 会 
注意 到 这 将 引出 一 组 [gqXrx] 一 [roYini] [riY2r2]… [reiYxr] 形 式 的 产生 式 ， 其 中 xi, rs， …) 关 可 以 是 所 有 
状态 的 列表 。 由 于 k 可 以 接近 于 n， 而 且 可 以 有 接近 于 n 个 状态 ， 因 此 总 的 产生 式 的 数目 可 以 达到 
1 的 规模 。 哪 怕 某 个 PDA 只 要 写 一 个 长 的 堆栈 符号 串 ， 我 们 都 无 法 完成 这 样 的 一 般 规模 的 PDA 
的 构造 过 程 。 

辛 运 的 是 ， 这 种 最 坏 情 况 永 远 都 不 必要 发 生 。 就 像 习 题 6.2.8 中 所 说 ， 可 以 把 对 长 的 堆栈 符 
号 串 的 依次 压 人 打 断 为 一 系列 最 多 " 步 的 每 次 压 人 一 个 符号 的 序列 。 也 就 是 说 ， 如 果 6(g, a, 加 包 
含 (ro, 奢 丈 … 肥 )， 那 么 就 可 以 引入 新 状态 pz, p;, …, pr_1。 接着， 用 (PE 了 -1 了 DD 来 代 赫 6(q, a, 了 中 
的 (ro, 了 六 … 了 i)， 同 时 引入 新 的 转移 

Apr-1, E, Ve-1) = 人 De Ve_2¥i1)}, (pr 2, E, Vi 2) = {pr s, Yr_ 3 2)} 
等 等 ， 直 到 6p2, ,YY) = {(ro, YY2)}。 

现在 ， 所 有 的 转移 都 不 包含 多 于 两 个 的 堆栈 符号 。 我 们 已 经 增加 了 至 多 n 个 新 状态 ， 同 时 所 
有 6 的 转移 规则 的 长 度 之 和 至 多 增加 了 一 个 常数 因子 ， 也 就 是 说 它 仍然 是 O(n)。 一 共有 O(n) 条 转 
移 规则 ， 每 个 能 够 产生 O(n”) 个 产生 式 ， 原 因 是 从 每 个 规则 生成 产生 式 时 只 需要 选择 两 个 状态 即 
可 。 因 此 ， 构 造 出 的 文法 的 长 度 为 O(n3)， 并 且 能 够 在 立方 时 间 内 被 构造 出 来 。 我 们 用 下 面 的 定 
理 来 总 结 上 面 非 形式 化 的 分 析 过 程 。 


定理 7.31 存在 把 其 表示 的 长 度 为 n 的 PDA P 转 化 为 长 度 至 多 为 O(n) 的 CFG 的 O(n3) 算 法 。 该 
CFG 产 生 的 是 和 P 以 空 栈 方 式 接受 的 语言 相同 的 语言 。 同 样 也 可 以 选择 让 G 产 生 和 P 以 终结 状态 
方式 接受 的 语言 相同 的 语言 。 


口 


7.4.2 变换 到 乔 姆 斯 基 范 式 的 运行 时 间 


由 于 判定 算法 可 能 首先 依赖 于 把 一 个 CFG 变 为 乔 姆 斯 基 范 式 ， 因 此 我 们 也 应 该 考虑 一 下 已 
经 介绍 过 的 把 任意 的 文法 转化 为 CNF 文 法 的 多 种 算法 的 运行 时 间 。 它 们 中 的 很 多 步骤 都 只 和 文 
法 的 描述 的 长 度 相差 一 个 常数 因子 : 也 就 是 说 ， 从 一 个 长 度 为 n 的 文法 出 发 ， 它 们 能 够 生成 另 一 
个 长 度 为 0(n) 的 文法 。 下 面 的 事实 列表 总 结 了 这 些 好 的 方面 : 

1. 使 用 合适 的 算法 ( 见 7.4.3 布 ) 可 以 在 O(n) 时 间 内 检测 一 个 文法 的 可 达 符 号 和 产生 符号 。 

去 除 所 得 到 的 无 用 符号 需要 O(n) 的 时 间 ， 并 且 不 会 增加 文法 的 大 小 。 

2.7.1.4 市 中 构造 单位 对 和 去 除 单位 产生 式 的 算法 需要 O(n 的 时 间 ， 并 且 导 致 长 度 为 O(n?) 的 

文法 。 

3.7.1.5 市 ( 乔 姆 斯 基 范 式 ) 中 用 产生 式 体 中 的 变 元 来 代替 终结 符 的 算法 需要 O(n) 的 时 间 ， 

并 且 导 致 长 度 为 0(n) 的 文法 。 
4.7.1.5 市 中 使 用 的 把 产生 式 的 体 打 断 为 长 度 为 3 的 体 或 者 更 进一步 地 打 断 为 长 度 为 2 的 体 需 
要 的 时 间 也 是 O(n)， 且 所 得 文法 的 长 度 为 O(n)。 

坏 的 方面 包括 7.1.3 节 中 的 去 除 s 产 生 式 的 构造 过 程 。 如 果 有 长 度 为 K 的 产生 式 体 ， 可 以 从 这 
个 产生 式 构 造 出 新 文法 的 2* 一 1 个 产生 式 。 因 为 k 可 以 正比 于 n， 构 造 过 程 的 这 一 部 分 可 能 需要 
0(2”) 的 时 间 ， 并 且 导 致 长 度 为 0(2") 的 文法 。 

为 了 避免 这 个 指数 增长 ， 只 需要 限定 产生 式 体 的 长 度 即 可 。7.1.5 节 的 技巧 可 以 应 用 于 任何 
产生 式 体 ， 而 不 仅 限于 没有 终结 符 的 那 种 。 因 此 ， 我 们 推荐 把 所 有 体 比 较 长 的 产生 式 都 打 断 为 
体 的 长 度 为 2 的 一 系列 产生 式 ， 并 且 以 此 来 作为 去 除 e 产 生 式 之 前 的 预备 工作 。 这 步 需 要 O(n) 的 
时 间 ， 并 且 线 性 地 增加 文法 的 长 度 。 这 样 ，7.1.3 节 的 去 除 e 产 生 式 的 构造 过 程 将 只 对 体 的 长 度 至 
多 为 2 的 产生 式 进行 处 理 ， 在 这 样 的 工作 方式 下 ， 该 算法 的 运行 时 间 是 O(n)， 并 且 产 生 文 法 的 长 
度 也 是 O(n)。 

经 过 对 整个 CNF 构 造 过 程 进行 如 上 修改 之 后 ， 其 中 惟一 不 是 线性 的 步骤 就 是 去 除 单位 产生 
式 的 步骤 。 由 于 该 步骤 是 O(n”) 的 ， 因 此 得 出 以 下 结论 : 


定理 7.32 给 定 一 个 长 度 为 的 文法 G， 可 以 在 O(n 的 时 间 内 找到 一 个 和 G 等 价 的 乔 姆 斯 基 
范式 的 文法 ， 并 且 所 得 到 的 文法 的 长 度 为 O(n?)。 吕 


7.4.3 测试 CFL 的 空 性 


前 面 已 经 看 到 了 一 个 能 够 测试 CFL 7 是否 为 空 的 算法 。 给 定语 言 Z 的 文法 G， 使 用 7.1.2 节 中 
的 算法 来 判定 G 的 开始 符号 8 是 否 是 产生 的 ， 也 就 是 说 ，3 是 否 能 够 推导 出 至 少 一 个 串 。Z 是 空 的 
当 且 仅 当 5 不 是 产生 的 。 

因为 这 个 测试 的 重要 性 ， 我 们 将 要 详细 地 考虑 找到 文法 G 的 全 部 产生 符号 所 需 的 时 间 。 假 设 
G 的 长 度 为 *:， 则 可 能 有 接近 于 n 的 数目 的 变 元 ， 且 每 次 产生 变 元 的 归纳 发 现 可 能 需要 O(n) 的 时 间 
来 检查 G 的 所 有 产生 式 。 如 果 在 每 次 测试 中 只 能 发 现 一 个 新 的 产生 变 元 ， 则 将 会 总 共 需 要 O(n) 次 
测试 。 因 此 ， 一 个 直接 的 产生 符号 的 测试 的 实现 所 需 的 时 间 是 O(n?)。 

然而 ， 存 在 一 个 更 加 细致 的 算法 ， 它 预先 建立 一 个 数据 结构 ， 以 使 产生 符号 的 发 现 过 程 只 
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需 C(0o) 的 时 间 。 该 数据 结构 如 图 7-11 所 示 ， 从 一 个 以 变 元 为 索引 的 数组 出 发 “图 的 左 部 ) ， 它 表 
明 我 们 是 否 已 经 确定 该 变 元 是 产生 的 。 在 图 7-11 中 ， 由 该 数组 可 知 我 们 已 经 发 现 B 是 产生 的 ,但 
我 们 还 不 知道 4 是 不 是 产生 的 。 在 算法 结束 时 ， 剩 余 的 问号 都 变 成 “no”"， 原 因 古 不 能 由 该 算法 
发 现 为 产生 的 符号 事实 上 都 是 非 产 生 的 。 





图 7-11 线性 时 间 的 空 性 测试 所 使 用 的 数据 结构 


可 以 通过 建立 许多 类 型 的 链接 来 对 这 些 产 生 式 进行 预 处 理 。 首 先 ， 对 于 每 个 变 元 都 有 一 个 
链 把 所 有 该 变 元 出 现 的 位 置 记录 下 来 。 例 如 ， 变 元 8B 的 链 在 图 中 如 实 线 所 示 。 对 于 每 个 产生 式 ， 
都 有 一 个 计数 ， 它 表示 所 有 尚未 考虑 是 否 能 够 产生 终结 符 串 的 变 元 的 位 置 的 个 数 。 图 中 的 虚线 
所 示 的 是 从 产生 式 到 它们 的 计数 的 链接 。 图 7-11 中 所 示 的 计数 说 明了 还 没有 开始 考虑 任何 变 元 ， 
虽然 已 经 知道 了 B 是 产生 的 。 

假设 已 经 发 现 B 是 产生 的 。 我 们 就 沿 着 从 B 出 发 的 表示 体 中 拥有 B 的 位 置 的 链接 走 下 去 。 对 
于 每 个 这 样 的 位 置 ， 我 们 把 该 产生 式 的 计数 减 一 ， 为 了 判断 头 变 元 是 否 产 生 的 ， 发 现 是 产生 的 
所 需要 的 位 置 少 了 一 个 。 

如 来 一 个 计数 变 为 了 0， 则 知道 头 变 元 是 产生 的 。 可 以 通过 点 线 所 示 的 链接 找到 该 变 元 ， 接 
着 我 们 可 能 把 该 变 元 放 到 一 个 队列 中 以 表示 这 次 发 现 的 结果 还 需要 研究 (正如 刚刚 对 变 元 B 所 做 
的 那样 )。 这 个 队列 在 图 中 没有 给 出 。 

必须 证 明 该 算法 需要 的 时 间 是 O(n) 的 。 要 点 如 下 : 

* 因 为 大 小 为 n 的 文法 中 至 多 有 n 个 变 元 ， 所 以 该 数组 的 建造 和 初始 化 过 程 所 需 的 时 间 都 是 

O(n) 的 。 

* 因为 至 多 有 n 个 产生 式 ， 并 且 它 们 的 总 长 度 最 大 为 x， 所 以 图 7-11 中 所 示 的 链接 和 计数 的 初 

始 化 过 程 所 需 的 时 间 都 是 O(n) 的 。 

* 当 发 现 一 个 产生 式 的 计数 为 0 时 (也 就 是 说 ， 所 有 它 的 体 中 的 位 置 都 是 产生 的 )， 所 需要 做 

的 工作 可 以 分 为 两 类 : 

1) 对 于 该 产生 式 的 工作 : 当 发 现 计数 为 0 时 ， 找 到 该 变 元 (也 就 是 头 变 元 )， 比 如 为 4， 检 
碍 它 是 否 已 知 是 产生 的 ， 如 果 不 是 就 把 它 放 和 队列。 对 于 每 个 产生 式 这 些 步骤 所 需 的 时 
上 间 都 是 O(1)， 因 此 总 得 来 说 这 种 类 型 得 工作 所 需 的 时 间 至 多 为 O(n)。 

2) 当 访 问 到 产生 式 的 体 中 的 位 置 正 是 该 头 变 元 A 时 所 做 的 工作 。 这 些 工作 正比 于 是 4 的 位 
置 的 数目 。 因 此 , 处理 所 有 的 产生 符号 所 需 的 工作 总 量 正比 于 所 有 产生 式 体 的 长 度 之 和 ， 
也 就 是 O(n)。 

因此 得 出 结论 : 该 算法 总 的 工作 所 需 的 时 间 为 O(n)。 
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线性 空 性 测试 的 其 他 用 法 
7.4.3 节 所 述 的 用 于 测试 变量 是 否 是 产生 的 这 种 数据 结构 和 计数 技巧 也 可 用 于 使 7.1 市 中 


的 某 些 其 他 测试 为 线性 时 间 的 。 两 个 重要 的 示例 征 : 
1. 哪些 符号 是 可 达 的 。 
2. 哪些 符号 是 可 空 的 。 





7.4.4 ”测试 CFL 的 成 员 性 


我 们 也 可 以 判定 一 个 串 w 对 于 一 个 CFL L 来 说 的 成 员 性 。 有 很 多 低 效 的 方法 来 做 这 个 测试 ， [303 
它们 所 需 的 时 间 都 是 wl 的 指数 ， 其 中 假设 已 经 给 定 了 语言 L 的 一 个 文法 或 者 PDA 且 把 它们 的 大 小 
看 作 是 和 w 无 关 的 常数 。 例 如 ， 从 把 给 定 的 L 的 某 种 表示 转化 为 L 的 CNF 文 法 出 发 。 由 于 乔 姆 斯 基 
范式 文法 的 语法 分 析 树 都 是 二 叉 树 ， 所 以 如 果 w 的 长 度 是 a 则 在 该 树 中 恰好 有 2n 一 1 个 标号 为 变 元 
的 节点 (对 于 该 结果 有 一 个 很 简单 的 归纳 证 明 ， 把 它 留 给 读者 )。 因 此 可 能 存在 的 树 的 数目 以 及 
节点 标号 的 数目 也 “只 不 过 ”是 nm 的 指数 ， 因 此 原则 上 可 以 把 它们 全 列 出 来 然后 检查 一 下 是 否 它 
们 中 的 某 个 的 产物 为 w。 

有 一 个 基于 “动态 规划 (dynamic programming)” 思 想 的 有 效 得 多 的 技术 ， 也 许 就 是 “ 填 表 
算法 ”或 “做 表 法 ”。 这 个 算法 称 为 CYK 算 法 9 ， 它 从 语言 [的 CNE 文 法 G = (V, T, P, 3 出 发 。 该 
算法 的 输入 是 六 中 的 串 w = qiq2…an。 该 算法 在 O(m) 的 时 间 内 构造 出 一 个 表明 w 是 否 属于 L 的 表 。 
注意 ， 当 计算 这 个 运行 时 间 时 ， 认 为 该 文法 本 身 是 固定 的 ， 因 此 它 的 大 小 对 运行 时 间 的 影响 只 
是 个 常数 因子 ， 因 此 运行 时 间 是 以 正在 测试 属于 的 成 员 的 串 w 的 长 度 来 度量 的 。 

在 CYK 算 法 中 ， 我 们 构造 一 个 三 角形 的 表 ， 如 图 7-12 所 示 。 
水 平 轴 对 应 于 串 w = aaz…a, 中 的 位 置 ， 在 图 中 假定 w 的 长 度 为 5。 
表 项 X 是 满足 4 一 aa,,…a, 的 变 元 4 的 集合 。 特 别 要 注意 ， 我 们 


所 关心 的 是 9 是 否 属于 集合 X， 因 为 如 果 是 就 等 价 于 S 一 w ， 即 w 
属于 L。 

为 了 填 上 该 表 ， 一行 一 行 、 从 下 向 上 地 进行 处 理 ， 注 意 ， 每 
行 对 应 于 一 种 长 度 的 子 串 ， 最 下 面 的 一 行 对 应 着 长 度 为 1 的 串 ， 
倒数 第 二 行 对 应 着 长 度 为 2 的 串 ， 依 此 类 推 ， 直 到 最 上 面 的 一 行 
寺庙 著 发 许 六 z 的 千 串 ， 也 就 是 w 本 身 。 计算 该 天 第 玖 企 册 一 汪 要 中 中 作 EH 条 全 5 
i 、 沪 儿 的 方法 将 丰 下 面 接 着 介绍 。 因 为 访 表 由 人 计 第 信物 全 和 
由 共有 n(n + 1)/2 个 表 项 ， 所 以 构造 整个 表 的 过 程 所 需 的 时 间 是 O(m3) 的 。 下 面 是 计算 入 的 算法 : 

基础 ， 接 下 面 的 方式 计算 第 一 行 。 因 为 从 位 置 ;开始 且 结束 于 位 置 ;的 串 就 是 终结 符 w， 且 该 

“文法 是 CNE 的 ， 所 以 推导 出 串 w 的 惟一 的 途径 是 使 用 4 一 ai 形式 的 产生 式 。 因 此， 总 是 使 得 A 一 a 

是 G 的 产生 式 的 变 元 4 的 集合 。 

归纳 ， 假 设想 要 计算 出 X)， 它 处 在 第 j 一 i + 1 行 ， 并 且 已 经 计算 出 了 所 有 它 下 面 的 行 里 的 X。 





日 “ 它 是 由 三 个 独立 发 现 同样 思想 本 质 的 人 来 命名 的 : 到 Cocke、D. Younger 和 T. Kasami。 
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以 及 产生 式 体 为 b 的 变 元 (这 样 的 变 元 只 有 B)。 因 此 ， 
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也 就 是 说 ， 已 知道 了 所 有 比 aia; ,1…aj 短 的 串 ， 并 且 特 别 地 也 已 知道 了 所 有 这 样 的 串 的 真 前 级 和 真 
后 缀 。 因 为 可 以 假设 /一 > 0 (因为 i =j 的 情况 是 在 基础 部 分 )， 因 此 可 知 任何 推导 A 过 aa…a, 
一 定 从 某 步 4 一 BC 出 发 。 然 后 ，B 推 导出 某 个 aiai ,1…aj 的 前 组 ， 比 如 8 二 aa…a,，， 其 由 | 
k<j。 同 样 ，C 也 一 定 推导 出 aia; ;1… aj 的 剩 下 的 部 分 ， 即 C 一 ca A 

因此 得 知 : 为 了 使 4 属于 Xj;， 必 须 找到 变 元 B 和 C 以 及 整数 k 满 足 ， 

1, ek 

2.B 属于 Xx。 

>», 攻 二 于 1 

4.4 一 BC 是 G 的 产生 式 。 

为 了 对 这 样 的 变 元 4 进行 寻找 ， 需 要 至 多 比较 zx 对 以 前 计 
算出 来 的 集合 : (Xi, 成， Li (Xii +1, Xi+2,;)， 依 此 类 堆 ， 直 到 
(Xi 3) 图 7-13 所 示 的 是 这 些 进行 比较 的 集合 的 模式 ， 在 这 
种 模式 中 前 一 个 在 Xj 以 下 从 下 向 上 ， 后 一 个 沿 着 对 角 线 向 下 。 


定理 7.33 ”上 面 所 述 的 算法 能 够 对 于 所 有 的 斌 U 正 确 地 计 图 7-13 的 计算 需要 把 向 下 的 列 
算出 X;， 因 此 w 属 于 L(G) 当 且 仅 当 S 属 于 Xi,。 而 且 ， 该 算法 所 和 问 右 的 对 角 线 进行 进行 比较 
需 的 运行 时 间 是 O(n3)。 

证 明 ”该 算法 能 够 找到 正确 的 集合 的 原因 已 经 在 介绍 该 算法 的 基础 和 归纳 部 分 时 进行 了 解 
释 。 对 于 运行 时 间 ， 注 意 一 共 需 要 计算 O(n”) 个 表 项 ， 并 且 每 个 表 项 的 计算 需要 对 n 对 表 项 进行 比 
较 和 计算 。 最 重要 的 是 要 记 住 , 虽然 在 每 个 集合 Xj 中 可 能 会 有 很 多 变 元 ， 但 文法 G 是 固定 的 ， 
因此 它 的 变 元 数 是 和 z 无 关 的 ， 也 就 和 被 测试 成 员 性 的 串 w 的 长 度 无 关 。 因 此 ， 用 来 比较 两 个 表 
项 Xx 和 XX +1,;， 以 及 找到 应 加 入 Xi 的 变 元 的 时 间 是 0(1) 的 。 由 于 对 于 每 个 Xj 来 说 至 多 有 n 个 这 种 





对 ， 因 此 总 的 工作 是 0(m) 的 。 口 
例 7.34 下 面 是 一 个 CNF 文 法 G 的 产生 式 ， 
4 一 4 有 1BC 
A—BAla 
SC 1b 
C—ABla 
{5,A,C} 
我 们 将 对 L(G) 测 试 串 baaba 的 成 员 性 。 图 7-14 给 出 了 对 
于 该 串 所 填 的 表 。 et hd) 
为 了 构造 第 一 (最 下 面 的 ) 行 ， 使 用 基础 规则 。 人 {B} {B} 


只 要 考虑 产生 式 体 为 a 的 变 元 (这样 的 变 元 为 4 和 C) 
WBA} "(DB} {5,C} {5,A} 
在 ag 上面 的 位 置 中 看 到 表 项 {A4，C}， 而 b 上 面 的 位 置 中 CC 
看 到 表 项 {B}。 也 就 是 说 ，Xu = Xu = {B},， Xs = X33 = 
Xss = {4,C}, b a a b a 

在 第 二 行 中 看 到 Xis, X23, X34 和 Xss 的 值 。 例 如 ， 看 ” 图 7-14 用 CYK 算 法 对 串 paaba 所 构造 的 表 
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一 下 Xw 是 如 何 算出 来 的 。 只 有 一 种 方式 来 把 从 位 置 1 到 2 的 子囊 ( 即 ba) 打 断 为 两 个 非 空子 串 。 
第 一 个 一 定 是 位 置 1， 而 第 二 个 一 定 是 位 置 2。 为 了 让 一 个 变 元 能 产生 ba， 它 一 定 有 一 个 其 第 一 
个 变 元 属于 Xu = {B} (也 就 是 说 ， 它 产生 5b)， 而 第 二 个 变 元 属于 X22 = {4,C} (也 就 是 说 ， 它 产生 
a) 的 产生 式 体 。 这 个 产生 式 体 只 能 是 B4 或 BC。 如 果 检 查 一 下 该 文法 ， 就 会 发 现 只 有 产生 式 A 一 
BA 和 S 一 BC 拥有 这 样 的 体 。 因 此 两 个 头 4 和 5 组 成 了 X12。 

举 一 个 更 复杂 的 例子 ， 考 虑 Xw 的 计算 。 对 于 占据 位 置 2 到 4 的 串 aab， 可 以 从 位 置 2 后 面 或 者 
位 置 3 后 面 来 打 断 它 。 也 就 是 说 ， 可 以 在 Cz 的 定义 中 选择 k = 2 或 着 k = 3。 因 此 ， 必 须 考 虑 所 有 
XzXa4UX2aXu 中 的 体 。 这 个 串 的 集合 是 {A, C}{S, CYU{B}{B} = {4S, AC, CS, CC, BB}。 在 该 集合 
的 五 个 串 中 ， 只 有 CC 是 产生 式 体 ， 且 该 产生 式 的 头 是 B。 因 此 X24 = {B}。 口 


7.4.5 不 可 判定 的 CFL 问 题 一 览 


在 后 面 的 几 章 中 会 介绍 一 个 非凡 的 理论 ， 该 理论 能 够 使 我 们 通过 形式 化 的 方法 来 证 明 有 些 
问题 是 无 法 通过 能 在 计算 机 上 运行 的 算法 来 解决 的 。 我 们 将 会 用 它 来 证 明确 实 存 在 很 多 无 法 用 
算法 解决 的 看 上 去 很 简单 的 关于 文法 和 CEFL 的 问题 ， 它 们 被 称 为 “不 可 判定 问题 。 现 在 ， 暂 时 
用 一 系列 非常 有 意义 的 关于 上 下 文 无 关 文 法 和 上 下 文 无 关 语 言 的 不 可 判定 问题 来 充实 一 下 。 下 
面 的 问题 都 是 不 可 判定 的 : 

1. 某 个 给 定 的 CFG G 是 歧义 的 吗 ? 

2. 某 个 给 定 的 CFL 是 固有 歧义 的 吗 ? 

3. 两 个 CFL 的 交 为 空 吗 ? 

4. 两 个 CFL 相 同 吗 ? 

5. 某 个 给 定 的 CFL 等 于 2 吗 ? 其 中 2 是 该 语言 的 字母 表 ? 

注意 ， 关 于 歧义 性 的 问题 (1)， 在 风格 上 和 其 他 的 问题 有 些 不 同 : 它 是 一 个 关于 文法 的 问题 ， 
而 不 是 关于 语言 的 问题 。 虽 然 所 有 其 他 的 问题 都 假定 已 经 给 定 了 一 个 该 语言 文法 或 者 PDA， 但 
是 所 问 的 问题 是 针对 这 个 给 定 的 文法 或 者 PDA 所 定义 的 语言 的 。 例 如 ， 和 问题 (0D) 相 比 ， 第 二 个 
问题 问 的 是 一 个 给 定 的 文法 G (或 者 一 个 PDA， 情 况 也 类 似 ) 是 否 存 在 某 个 和 它 等 价 的 无 上 辟 义 的 
文法 G'。 如 果 G 本 身 是 无 歧义 的 ， 则 答案 当然 是 “是 ”"， 但 是 如 果 G 是 歧义 的 ， 则 仍然 有 可 能 存 
在 其 他 和 它 定义 同样 语言 的 无 歧义 的 文法 G'， 就 像 在 例 5.27 中 学 习 的 表达 式 文 法 一 样 。 


7.4.6 习题 


习题 7.4.1 给 出 判定 以 下 问题 的 算法 : 
* a) 对 于 一 个 给 定 的 CFG G，L(G) 是 否 是 有 限 的 ?提示 : 使 用 泵 引 理 。 
1b) 对 于 一 个 给 定 的 CFG G，ZG) 是 否 至 少 包含 100 个 串 ? 
lc) 给 定 一 个 CFG G 和 一 个 它 的 变 元 4， 是 否 存在 以 4 为 第 一 个 符号 的 句 型? 注意 : 记得 有 可 
能 4 首先 出 现在 某 个 名 型 的 中 间 但 是 接 下 来 所 有 它 左 边 的 符 志 都 推 寻 出 了 se。 
习题 7.4.2 使 用 7.4.3 节 中 描述 的 技术 来 开发 出 解决 以 下 关于 CFG 的 问题 的 线性 时 间 算 法 : 
a) 哪些 符号 能 够 出 现在 句 型 中 ? 
b) 哪些 符号 是 可 空 的 (推导 出 e) ? 
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习题 7.4.3 对 于 例 7.34 中 的 文法 G， 用 CYK 算 法 来 确定 下 列 串 是 否 属于 XGO)， 
* a) QPapa。 
b) baaab, 
c) aabab., 
* 习题 7.4.4 证 明 : 在 任何 CNF 文 法 中 ， 所 有 长 度 为 n 的 串 的 语法 分 析 树 都 有 2n 一 1 个 内 部 节 
尽 (也 就 是 说 ，2n 一 1 个 以 变 元 为 标号 的 节点 )。 
! 习题 7.4.5 ”修改 CYK 算 法 ， 使 之 能 够 给 出 对 于 一 个 给 定 的 输入 的 不 同 的 语法 分 析 树 的 个 数 ， 
而 不 是 仅仅 给 出 在 该 语言 中 的 成 员 性 。 


71.9 wj* 结 


。 去 除 无 用 符号 ; 如 果 在 某 个 CFG 中 的 某 个 变 元 不 能 推导 出 终结 符 串 ， 而 且 它 不 可 能 出 现在 
由 开始 符号 推导 出 的 至 少 一 个 串 中 ， 则 可 以 从 CFG 中 去 除 它 。 为 了 正确 地 去 除 这 类 无 用 符 
号 ， 必 须 首 先 测 试 一 个 变 元 是 否 能 够 推导 出 终结 符 串 ， 然 后 去 除 那 些 不 能 推导 出 终结 符 串 
的 变 元 以 及 所 有 它们 的 产生 式 。 然 后 只 去 除 那些 无 法 从 开始 符号 推导 出 的 符号 。 

“去 除 E 产 生 式 和 单位 产生 式 : 给 定 一 个 CFG， 可 以 找到 另外 一 个 除了 之 外 能 够 产生 同样 语言 的 
CFG， 因 此 也 就 没有 产生 式 ( 体 为 e 的 产生 式 ) 或 者 单位 产生 式 ( 体 为 单个 变 元 的 产生 式 )。 

。 乔 姆 斯 基 范 式 : 给 定 一 个 至 少 能 够 推导 出 一 个 非 空 串 的 CFG， 可 以 找到 另外 一 个 除了 之 
外 产生 同样 语言 的 并 且 是 乔 姆 斯 基 范 式 的 CFG: 没有 无 用 符号 ， 并 且 每 个 产生 式 体 只 包含 
两 个 变 元 或 者 一 个 终结 符 。 

。 泵 引 理 : 在 任何 CFL 中 ， 在 任何 属于 该 语言 的 足够 长 的 串 中 ， 都 可 以 找到 一 个 下 面 这 样 的 
短 串 : 它 的 两 端 可 以 作为 相互 合作 被 “ 泵 ”"， 也 就 是 说 ， 可 以 把 每 一 个 重复 任意 多 次 。 被 
泵 的 串 不 会 都 是 s。 这 个 引 理 ， 以 及 另 一 个 在 习题 7.2.3 中 介绍 的 称 为 奥 格 登 引 理 的 更 强 的 
版 本 ， 可 以 使 我 们 证 明 许 多 语言 不 是 上 下 文 无 关 的 。 

。 保 持 上 下 文 无 关 语 言 的 运算 : CFL 在 代入 、 并 、 连 接 、 闭 包 ( 星 )、 反 转 以 及 逆 同 态 这 些 运 
算 下 是 封 朵 的 。CEFL 在 交 运 算 和 补 运算 下 不 是 封闭 的 ， 但 CFL 和 正则 语言 的 交 仍 然 是 CFL， 
“测试 CFL 的 空 性 : 给 定 一 个 CFG， 存 在 一 个 算法 能 够 判断 它 是 否 产生 至 少 一 个 串 。 有 一 个 

细致 的 实现 能 够 在 正比 于 文法 大 小 的 时 间 内 完成 该 测试 。 

* 测试 CFL 的 成 员 性 : CYK (Cocke-Younger-Kasami) 算法 能 够 判断 一 个 给 定 的 串 是 否 属于 
一 个 给 定 的 上 下 文 无 关 语 言 。 对 于 一 个 固定 的 CFL， 它 的 测试 时 间 是 O(mw)， 其 中 n 是 被 测 
试 的 串 的 长 度 。 


7.6 参考 文献 


“ 乔 姆 斯 基 范 式 来 源 于 [2]。 格 雷 巴 赫 范 式 来 源 于 [4]， 虽 然 习 题 7.1.11 中 给 出 的 构造 方法 是 由 
M. C. Paull 给 出 的 。 
许多 上 下 文 无 关 语言 的 基本 性 质 来 自 于 [1]。 这 些 思想 包括 泵 引 理 、 基 本 封闭 性 以 及 对 于 简 
单 的 问题 (比如 CFL 的 空 性 和 有 穷 性 ) 的 测试 。 另 外 [6] 是 交 和 补 的 不 封闭 性 的 来 源 ，[3] 则 提供 
了 其 他 一 些 封闭 性 的 结果 ， 包 括 CFL 在 逆 同 态 下 的 封闭 性 。 奥 格 登 引 理 来 源 于 [5]。 


上 下 驻 无 类 苹 计 的 性 所 2 





CYK 算 法 已 经 知道 有 三 个 独立 的 来 源 。J.Cocke 的 工作 是 私下 传播 的 ， 并 未 发 表 过 。T. 
Kasami 的 本 质 上 是 同样 的 算法 的 论著 仅 出 现在 一 份 美国 空军 的 内 部 的 备忘录 上 。 然 而 ，D. 
Younger 的 著作 是 按照 常规 发 表 了 的 [7]。 
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第 8 章 图 灵机 导 5| 


在 本 章 中 ， 本 书 的 讨论 方向 有 大 的 改变 。 到 目前 为 止 ， 把 主要 兴趣 放 在 简单 语言 类 及 其 用 于 
相当 受 限 制 的 问题 《比如 协议 分 析 、 文 本 搜索 、 或 程序 语法 分 析 等 ) 的 方法 上 上。 现在， 开始 考 虑 
无 论 什么 样 的 任意 计算 装置 能 定义 什么 语言 的 问题 。 这 个 问题 等 价 于 计算 机 能 做 什么 的 问题 ， 因 
为 识别 语言 中 的 串 是 表示 任意 问题 的 形式 化 方法 ， 解 答 问题 则 是 计算 机 做 什么 的 合理 表示 。 

本 章 利用 假设 的 C 程 序 设计 知识 ， 从 非 形式 化 论证 开始 ， 证 明 存 在 不 能 用 计算 机 解答 的 具体 
问题 。 这 些 问题 称 为 “不 可 判定 的 "。 然 后 介绍 计算 机 的 由 来 已 入 的 形式 化 ， 即 所 谓 图 灵机 。 图 
灵机 外 表 不 像 个 人 电脑 ， 假 如 某 个 突然 冒 出 来 的 公司 决定 制造 和 出 售 图 灵机 ， 那 么 那 种 图 灵机 
可 能 是 非常 低 效 的 ， 但 图 灵机 一 直 被 认为 是 关于 任意 物理 计算 装置 能 做 什么 的 精确 模型 。 

在 第 9 章 中 ， 使 用 图 灵机 来 发 展 “ 不 可 判定 ”问题 的 理论 ， 即 任何 计算 机 都 不 能 解决 的 问题 。 
证 明 许 多 容易 表达 的 问题 事实 上 是 不 可 判定 的 。 一 个 例子 是 断定 给 定 的 文法 是 否 歧义 ， 我们 还 
将 看 到 许多 其 他 例子 。 


8.1 计算 机 不 能 解答 的 问题 


本 区 的 目标 是 给 出 非 形式 化 的 、 基 于 C 程 序 设计 的 介绍 ， 来 证 明 存 在 计算 机 不 能 解答 的 具体 
问题 。 讨 论 的 具体 问题 是 : C 程 序 显 示 的 开头 是 否 为 hello， wor1d。 可 能 设想 对 程序 的 模拟 
将 允许 断定 程序 做 什么 ， 但 在 现实 中 必须 处 理 那些 花费 了 超 平 想像 的 长 时 间 之 后 还 根本 没有 产 
生 任何 输出 的 程序 。 这 个 问题 一 -不 知道 某 件 事情 将 在 何 时 发 生 (假如 终究 发 生 ) 一 一 是 不 能 断 
定 程序 做 什么 的 根本 原因 。 但 形式 化 地 证 明 不 存在 完成 规定 任务 的 程序 ， 这 是 非常 环 手 的 ， 需 
要 开发 一 些 形式 化 的 技巧 。 在 本 节 中 ， 给 出 形式 化 证 明 背 后 的 直觉 。 


8.1.1 显示 “hello, world” 的 程序 


图 8-1 中 是 学 生 们 读 Kernighan 和 Ritchie 的 经 典 著作 。 时 遇 到 的 第 一 个 C 程 序 。 很 容易 发 现 这 
个 程序 显示 hello， wor1dq 并 终止 。 这 个 程序 太 显然 了 ， 结 果 形 成 这 样 一 种 惯例 ， 即 通过 说 明 
如 何 用 一 些 语言 来 写 显示 hello，world 的 程序 来 介绍 这 些 语言 。 





main() 


{ 


printf("hello, world\n"); 


} 





图 8-1 Kernighan 和 Ritchie 的 hello-world 程 序 


不 过 ， 存 在 其 他 程序 也 显示 hello， wor1d， 而 这 些 程序 这 样 做 的 事实 却 远 非 显然 。 图 8-2 


日 B.W.Kermighan andD.M. Ritchie, 7TjpeC Programming Language, 1978, Prentice-Hall, Englewood Cliffs, NJ. 
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说 明 男 一 个 程序 可 能 显示 hello， world。 这 个 程序 获得 输入 n， 寻 找 方程 w+ y"= z" 的 正 整 数 
解 。 如 果 找 到 一 个 解 ， 就 显示 hello， world。 如 果 永 远 找 不 到 满足 方程 的 整数 x, y 和 z， 就 永 
远 继 续 搜 索 下 去 ， 永 不 显示 hello, wor1d。 

int exp(int i, n) 


/* 计算 的 n 次 各 */ 
{ 


int ans, j; 

ans = 1; 

for (j=1; j<=n; j++) ans *= i; 
return(ans); 


main () 
IE 
scanf("%d", &n); 
total = 3; 
while (1) { 
for (x=1; x<=total-2; X++) 
for (y=1; y<=total-x-1; y++) { 
2 DER 六 
if (exp(x,n) + exp(y,n) == exp(z,n)) 
printf("hello, world\n"); 
} 
total++; 


} 





图 8-2 费 马 大 定理 表示 成 hello-world 程 序 


为 了 理解 这 个 程序 所 做 的 ， 首 先 注 意 exp 是 计算 指数 的 辅助 函数 。 主 程序 需要 按照 某 种 顺 
序 搜索 三 元 组 (x, y, z)， 以 保证 最 终 达 到 每 个 正 整数 三 元 组 。 为 了 适当 地 组 织 搜索 ， 使 用 第 四 个 
变量 total， 初 值 为 3， 在 while 循 环 中 每 次 加 1， 最 终 达到 任何 有 穷 整 数 。 在 while 循 环 内 ， 把 
total 分 成 三 个 正 整 数 x, y, z， 先 让 x 从 1 漫游 到 total-2， 在 for 循 环 中 让 y 从 1 漫游 到 total 减 去 
x 由 减 1。 剩 下 来 的 数 一 定 在 1 与 total-2 之 间 ， 把 这 个 数 给 z。 

在 最 内 层 循 环 中 ， 测试 三 元 组 x,y,z) 看 是 否 *+y 妆 =z*。 若 是 ， 则 程序 显示 hello，world,， 
知人 否 ， 则 什么 也 不 显示 。 

如 霖 程序 读 到 n 值 是 >， 则 程序 最 终 将 找到 x*+ y= zz 的 整数 组 合 ， 比 如 total = 12,x = 3,y=4， 
z=5。 因 此 ， 对 输入 2， 程序 的 确 显 示 hello,， world,。 

但 是 ， 对 任何 整数 x*>2， 程 序 将 永远 找 不 到 满足 w+ y* = z* 的 正 整 数 三 元 组 ， 因 此 不 显示 
hello,， world。 说 来 有 趣 ， 直 到 几 年 前 ， 还 不 知道 这 个 程序 是 否 对 某 个 大 整数 n 将 显示 
hello,， world。 寓 马 在 300 年 前 断言 过 将 不 显示 ， 即 如 果 n>2， 则 方程 w*+ yr*= z" 没 有 整数 解 ，- 
但 是 直到 最 近 才 找到 证 明 。 这 个 命题 通常 称 为 “ 费 马 大 定理 ”。 

定义 hello-world 问 题 为 :确定 带 有 给 定 输入 的 给 定 C 程 序 是 否 显 示 hello， wor 1d 作 为 程序 
显示 的 前 12 个 字符 。 在 后 面 的 讨论 中 ， 常 常用 程序 显示 hello， wor1ld 的 命题 作为 省 略语 ， 表 
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示 程 序 显示 hello，world 作 为 其 显示 的 前 12 个 字符 。 

如 果 数 学 家 们 花费 300 年 解答 关于 简单 的 22 行 程序 的 问题 ， 那 么 断定 给 定 程序 在 给 定 输入 上 
是 否 显 示 hello， world 的 一 般 问题 ， 似 乎 当然 一 定 是 困难 的 。 事 实 上 ， 数 学 家 们 还 不 能 解答 
的 任何 问题 都 能 转变 为 这 种 形式 的 问题 ;“ 具 有 这 个 输入 的 这 个 程序 是 否 显示 hello, world? “ 
因此 ， 假 如 能 够 编写 程序 来 检查 任何 程序 P 和 P 的 输入 TI， 并 断定 PL 以 I 作为 输入 来 运行 是 否 显 示 
hello7 world， 那 这 当然 就 是 非 同 寻常 的 。 本 章 将 证 明 这 样 的 程序 不 存在 。 


为 什么 不 可 判定 问题 一 定 存在 


证 明 具 体 问 题 (比如 这 里 讨论 的 hello-world 问 题 ) 一 定 是 不 可 判定 的 是 环 手 的 ， 但 非 
常 容 易 看 出 为 什么 几乎 所 有 问题 采用 与 程序 设计 有 关 的 任何 系统 都 一 定 是 不 可 判定 的 。 回 
忆 一 下 ,“ 问 题 ” 其 实 就 是 串 在 语言 中 的 成 员 性 。 在 任何 多 符号 字母 表 上 ， 不 同 语言 的 数 
目 都 是 不 可 数 的 。 也 就 是 说 ， 没 有 办 法 把 整数 指派 给 语言 ， 使 得 每 个 语言 有 一 个 整数 ， 且 
每 个 整数 只 指派 给 一 个 语言 。 

另 一 方面 ， 程 序 作 为 有 穷 字母 表 (典型 地 是 ASCII 字 母 表 的 子 集合 ) 上 有 穷 的 串 ， 是 


可 数 的 。 也 就 是 说 ， 可 根据 长 度 顺序 来 排列 程序 ， 并 按 字母 顺序 来 排列 相同 长 度 的 程序 。 
因此 ， 可 谈 及 第 1 个 程序 、 第 2 个 程序 ， 一 般 说 来 第 i 个 程序 (对 于 任意 整数 i)。 

结果 我 们 知道 程序 比 问 题 要 少 无 穷 多 个 。 假 如 随机 地 挑选 语言 ， 几 乎 能 确定 挑选 的 将 
是 不 可 判定 问题 。 大 多 数 问 题 似 竹 都 是 可 判定 的 ， 其 惟一 理由 是 人 们 很 少 注意 随机 问题 。 
更 恰当 地 说 ， 人 们 倾 癌 于 考虑 还 算 简单 的 、 带 有 民 好 结构 的 问题 ， 当 然 这 些 问 题 常 常 是 可 
判定 的 。 但 即使 在 人 们 感 兴趣 的 、 能 清楚 而 简洁 地 叙述 的 问题 中 ， 也 发 现 许 多 问题 是 不 可 
判定 的 ; hello-world 回 题 就 是 相关 的 例子 。 


8.1.2 假设 中 的 “hello, world” 检 验 程序 


进行 hello-world 检 验 的 不 可 能 性 证 明 是 归 廖 证明 。 也 就 是 说 ， 假 设 存在 程序 ( 称 为 HH) 以 程 
序 忆 和 输入 1 作为 输入 ， 断 定 带 输入 7 的 PP 是否 显示 heLlo， wor1ld。 图 8-3 表 示 H 做 什么 。 具 体 地 
说 ， 五 产生 的 惟一 输出 是 : 显示 3 个 字符 yes 或 显示 2 个 字符 
no。 总 是 非 此 即 彼 。 I 

如 有 果 问 题 有 像 瑟 那样 的 算法 总 是 正确 地 断定 问题 实例 有 
答案 “yes 或 no ， 就 说 问题 是 “可 判定 的 ， 否 则 ， 说 问 
题 是 “不 可 判定 的 ">。 本 节目 标 是 证 明石 不 存在 ， 即 hello- 图 8-3 假设 中 的 程序 万 是 hello- 
world 问 题 是 不 可 判定 的 。 world 探 汕 程 序 

为 了 通过 归 座 法 来 证 明 这 个 合 题 ， 将 多 次 修改 且 ， 最 终 构造 称 为 H 的 相关 程序 ， 并 证 明 妨 ;不 
存在 。 由 于 对 五 的 修改 都 是 可 对 任何 C 程 序 来 做 的 简单 变换 ， 所 以 惟一 可 质疑 的 命题 是 五 的 存在 
性 ， 所 以 正 是 这 个 假设 导出 了 了 矛盾 。 

为 了 简化 本 节 的 讨论 ， 将 做 几 点 关于 C 程 序 的 假设 。 这 些 假设 减轻 而 非 加 重 五 的 工作 ， 所 以 ， 
如 果 对 这 些 受 限制 的 程序 能 证 明 “hello-world 检 验 程 序 ” 不 存在 ， 那 么 能 对 更 大 程序 类 起 作用 的 









hello-world 
检验 程序 
H 
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检验 程序 就 肯定 不 存在 。 本 节 的 假设 是 : 

1. 所 有 输出 都 基于 字符 ， 即 不 用 图 形 包 或 任何 其 他 工具 来 产生 非 字 符 形式 的 输出 。 

2. 用 printf 产 生 所 有 基于 字符 的 输出 ， 而 不 用 putchaz ( ) 或 其 他 基于 字符 的 输出 函数 。 

现在 假设 程序 五 存在 。 第 一 个 修改 是 改变 输出 no，no 是 当 输 入 程序 P 不 显示 he1llo， 
world 时 如 所 做 的 反应 。 一 旦 五 显 示 “n”， 就 知道 最 终 将 跟着 “0o”9 。 因 此 ， 可 把 H 中 任何 显示 
“n” 的 printf 语 句 修改 成 显示 hello， worz1ld。 省 略 其 他 显示 “o” 而 不 显示 “n” 的 printf 
语句。 结果 是 ， 恰好 当 右 将 显示 “no” 时， 新 的 


程序 ( 称 为 有 本 ) 显示 hello，wor1ld, 除 此 之 外 ， 1 yes 

村 行为 类 似 于 及 。 有 如 图 8-4 所 示 。 说 Wai ，。 
这 个 程序 的 下 一 个 改变 有 点 棘手 ， 这 个 改变 “ 

本 质 上 就 是 允许 阿兰 . 图 灵 证 明 关 于 图 灵机 的 不 图 8-4 刁 行 为 类 似 于 及 ,但 友 输 出 

可 判定 性 结果 的 那 种 洞察 力 。 我 们 感 兴趣 的 正 是 ael1o，world 来 代替 输出 no 


以 其 他 程序 作为 输入 并 断定 关于 其 他 程序 一 些 性 质 的 程序 ， 所 以 将 限制 已 使 得 它 ， 
a) 只 取 输 入 已 ， 而 不 是 P 和 /。 
b) 问 : 假如 P 的 输入 是 P 自 身 的 编码 ， 那 么 P 将 做 什么 ?也 就 是 P 既 作为 程序 又 作为 输入 1， 
在 这 样 的 输入 上 五 将 做 什么 ? 
为 了 产生 如 图 8-5 所 示 的 程序 成 ， 在 有 上 必须 进行 如 下 修改 
1. 用 ;首先 读 整 个 输入 P 并 把 P 保 存在 数组 4 中 ，A 是 为 这 个 目的 而 “malloce”9 的 。 
2. 有 ;然后 模拟 Hl1， 但 每 当 栈 将 从 P 或 1 读 输 入 


时 ， 厂 ;就 读 A 中 保存 的 副本 。 为 明了 到 读 yes 

了 多 少 P 和 7， 玩 保持 两 个 指针 来 标记 在 4 ? 3 on 

中 的 位 置 。 

现在 准备 证 明太 ;不 可 能 存在 。 因 此 有 不 存在 ， 图 8-5 太行 为 类 似 于 ， 但 使 用 

同 理 五 不 存在 。 论 证 的 核心 是 想像 当 给 定 环 自身 作 答 入 P 同 时 作为 P 和 1/ 
为 输入 时 瑟 做 什么 。 这 种 情况 如 图 8-6 所 示 。 回 忆 , 
一 下 ， 给 定 殉 任意 程序 P 作 为 输入 ， 如 果 忆 以 自身 /yes 
作为 输入 显示 hello，world， 则 三 输出 yes, 而 《2 2 hello, world 
且 ， 如 采 P 以 自身 作为 输入 不 显示 hello， world 
作为 开头 输出 ， 则 到 输 出 hello，worl1d,， 图 8-6 当 给 定 自身 作为 输入 时 五 做 什么 


假设 如 图 8-6 中 方 框 所 示 的 玩 输 出 yes 。 于 是 方 框 中 殉 正 是 这 样 表明 输入 胱 的， 即 H2 以 自身 
作为 输入 显示 hello， wor1ld 作 为 开头 输出 。 但 是 ， 刚刚 假设 了 石 :的 开头 输出 是 yes， 而 不 是 
hello, world, 


图 8-6 中 方 框 的 输出 似乎 是 ello,wor1d， 因 为 一 定 是 非 此 即 彼 的 。 但 是 ， 如 果 码 以 自身 


昌 程序 极 可 能 在 一 个 printf 中 显示 “no”, 但 也 可 能 在 一 个 printf 中 显示 “n”， 而 在 另 一 个 printf 中 显示 “o”。 

日 UNIX 的 malloc 系 统 函数 分 配 一 块 内 存 ， 在 malloc 的 调用 中 规定 其 大 小 。 在 直到 程序 运行 时 才能 确定 所 需 
内 存 数量 的 情况 下 使 用 这 个 函数 ， 比 如 读 任意 长 度 的 输入 时 就 可 能 是 这 种 情况 。 典型 情况 下 ， 可 能 多 次 调用 
malloc， 因 为 读 越 来 越 多 的 输入 ， 就 需要 不 断 增 多 的 空间 。 


A 


作为 输入 首先 显示 hello，world， 则 图 8-6 中 方 框 的 输出 一 定 是 yes。 无论 假 设 及 有 什么 输出 ， 
都 能 论证 到 有 另 一 种 输出 。 

这 种 情况 是 悖 论 ， 结 论 是 态 不 可 能 存在 。 结 果 是 从 HH 存在 的 假设 导出 了 矛盾 ， 即 已 经 证 明了 
没有 任何 程序 8 能 断定 ， 给 定 程序 P 及 其 输入 I，P 是 否 显示 hello，world 作 为 开头 输出 。 


8.1.3 把 问题 归 约 到 另 一 个 问题 


现在 ,这 样 就 有 了 一 个 问题 ， 带 有 给 定 输入 的 给 定 程序 是 否 首先 显示 hello， world? 计 
算 机 不 能 解答 的 问题 称 为 不 可 判定 的 。 在 9.3 节 中 将 给 出 “不 可 判定 ”的 形式 化 定义 ， 目 前 暂时 
非 形 式 化 地 使 用 这 个 术语 。 假 设 希 望 确定 计算 机 能 否 解决 某 个 其 他 问题 。 可 以 试 着 写 程序 来 解 
决 这 个 问题 ,但 如 果 不 能 断定 如 何 这 样 做 ， 就 可 尝试 证 明 不 存在 这 样 的 程序 。 

通过 类 似 于 hello-world 问 题 所 用 过 的 技术 也 许 能 证 明 新 问题 是 不 可 判定 的 : 假设 有 一 个 程序 解 
决 这 个 问题 ， 然 后 开发 像 程序 玩 那 样 一 定做 两 件 矛盾 事情 的 悖 论 程 序 。 不 过 ， 一 旦 拥有 已 知 是 不 
可 判定 的 问题 ， 就 再 也 没有 必要 证 明 存在 悖 论 情况 。 证 明 假 如 能 解决 新 间 题 ， 就 能 用 这 个 解法 来 
解决 已 知 是 不 可 判定 的 问题 ， 这 就 足够 了 。 这 个 策略 如 图 8-7 所 示 ; 这 种 技术 称 为 从 P 到 P 的 归 约 。 


no 


图 8-7 如 末 能 解决 问题 P,， 就 能 用 P, 的 解法 来 解决 问题 PI 


假设 已 知 问题 Pl 是 不 可 判定 的 ，P; 是 希望 证 明 其 也 是 不 可 判定 的 新 问题 。 假 设 存 在 如 图 
8-7 中 标记 为 “判定 ”的 菱形 所 示 的 程序 ， 这 个 程序 根据 问题 P, 输 入 实例 是 否 属于 问题 P; 的 语 
言 来 显示 yes 或 no。 

为 了 证 明 问 题 P, 是 不 可 判定 的 ， 需 要 发 明 如 图 8-7 中 方 框 所 示 的 构造 ， 把 Pi 实例 转化 为 有 相 
同 答案 的 P; 实 例 。 也 就 是 说 ， 把 Pi 中 任意 串 转 化 为 P; 中 某 个 串 ， 把 Pi 字母 表 上 不 属于 语言 P 的 任 
何 串 转化 为 不 属于 语言 P; 的 串 。 一 旦 拥有 这 个 构造 ， 就 能 解决 Pi 如 下 : 

1. 给 定 己 实例 ， 即 给 定 可 能 属于 或 不 属于 语言 已 的 串 w， 应 用 构造 算法 来 产生 串 x。 

2. 检验 x 是 否 属于 P,， 用 同样 答案 回答 w 是 否 属于 Pi 

如 采 w 属 于 己 ， 则 x 属 于 已 ， 所 以 这 个 算法 输出 yes。 如 果 w 不 属于 已 ， 则 x 不 属于 己 ， 这 个 算 
法 输出 no。 无 论 如 何 ， 算 法 说 出 关于 w 的 事实 。 曾 经 假设 过 判定 串 是 否 属 于 已 的 算法 不 存在 ， 
所 以 已 经 用 归 廖 法 证 明了 假设 中 的 忆 判 定 算法 不 存在 ， 即 已 是 不 可 判定 的 。 


例 8.1 利用 这 个 方法 证 明 问 题 “ 给 定 输入 y， 程 序 2 是 否 曾 经 调用 国 数 foo” 是 不 可 判定 的 。 
注意 ，@ 可 能 没有 函数 foo， 在 这 样 的 情况 下 问题 是 容易 的 ， 困 难 的 情况 是 当 Q 有 函数 foo， 但 


唱 回忆 一 下 ， 问 题 其 实 是 语言 。 当 谈 及 判定 给 定 程序 和 输入 是 否 产生 hello， wor1d 作 为 开头 输出 的 问题 时 ， 
其 实 谈论 的 是 由 C 源 程序 和 后 面 跟着 的 被 程序 读 的 任意 (多 个 ) 输入 文件 组 成 的 字符 串 。 
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对 输入 y 可 能 到 达 也 可 能 不 到 达 对 foo 的 调用 时 。 因 为 我 们 只 知道 一 个 不 可 判定 问题 ， 所 以 hello: 
world 问 题 将 起 图 8-7 中 Pl 的 作用 。P; 将 是 刚刚 提 到 的 foo 调 用 问题 。 假 设 存在 程序 解决 foo 调 用 问 
题 。 下 面 的 任务 是 设计 算法 把 hello-world 问 题 转化 为 foo 调 用 问题 。 


计算 机 真 的 能 做 所 有 这 些 吗 ? 


如 果 检 查 诸 如 图 8-2 这 样 的 程序 ， 也 许 会 问 这 个 程序 是 否 真 的 搜索 费 马 大 定理 的 反例 。 
毕竟 ， 在 典型 计算 机 中 整数 只 有 32 位 长 度 ， 如 果 最 小 反例 都 涉及 几 十 亿 那 么 大 的 整数 ， 则 
在 找到 解 之 前 就 会 发 生 溢出 错误 。 事 实 上 ， 可 以 论证 带 有 128M 主 存 和 30G 硬 盘 的 计算 机 
“只 ”有 256301230000w 种 状态 ， 因 此 只 是 有 穷 自动 机 。 : 


不 过 ， 认 为 计算 机 是 有 穷 自 动机 (或 认为 大 脑 是 有 穷 自动 机 ，FA 思 想来 源 于 此 ) 是 徒 


厄 的 。 有 关 的 状态 数 是 如 此 巨大 ， 界 限 又 是 如 此 不 清楚 ， 所 以 得 不 出 任何 有 用 结论 。 事 实 
上 ， 有 各 种 各 样 理 由 相信 在 必要 时 能 任意 地 扩展 计算 机 的 状态 集合 。 

例如 ， 整 数 可 表示 成 任意 长 度 的 数字 链表 。 如 果 耗 尽 了 内 存 ， 程 序 可 显示 请 求 ， 让 人 
来 拆 下 硬盘 、 保 存 起 来 、 换 上 空 的 硬盘 。 随 着 时 光 流 逝 ， 计 算 机 可 以 显示 请 求 ， 在 计算 机 
需要 的 那么 多 个 硬盘 中 进行 切换 。 这 个 程序 可 能 比 图 8-2 中 的 程序 复杂 得 多 ， 但 并 未 超出 人 
写 程序 的 能 力 。 类 似 的 技巧 应 当 能 够 允许 任何 其 他 程序 避免 由 内 存 大 小 、 整 数 大 小 或 其 他 
数据 项 大 小 引起 的 有 穷 限制 。 





”也 就 是 说 ， 给 定 程序 C 和 输入 y， 必 须 构 造 程序 R 和 输入 z， 使 得 R 对 输入 z 调 用 foo 当 且 仅 当 O 
对 输入 y 显 示 hello，world。 构 造 并 不 难 : 
1. 如 采 C 有 国 数 称 为 foo， 则 重新 命名 这 个 函数 及 对 这 个 函数 的 调用 。 显 然 新 程序 CO 恰 好 做 
Q 所 做 的 事情 。 
2. 给 Qi 添加 函数 £00。 这 个 函数 什么 都 不 做 ， 也 不 被 调用 。 得 到 的 程序 是 QO;、。 
3. 修改 Qs 来 记录 其 显示 的 前 12 个 字符 ， 在 全 局 数组 A 中 保存 这 些 字符 。 设 得 到 的 程序 是 O;。 
4. 修改 2 使 得 每 当 它 执行 输出 语句 时 ， 就 检查 数组 4 看 是 否 已 经 写 了 12 个 字符 或 更 多 ， 如 果 
是 ， 就 看 它 12 个 字符 是 否 是 nello， world。 在 是 的 情况 下 ， 调 用 在 第 (2) 条 中 加 入 的 新 
函数 Ef00o。 得 到 的 程序 是 R， 输 入 z 与 y 相 同 。 


归 约 的 方向 是 重要 的 
常见 的 错误 是 试图 通过 把 问题 P 归 约 到 某 个 已 知 的 不 可 判定 问题 P. 上 来 证 明 Py 是 不 可 
判定 的 ， 即 证 明 命 题 “ 如 果 Pl 是 可 判定 的 ， 则 Ps 是 可 判定 的 "。 这 个 命题 确实 为 真 ， 但 毫 无 
用 处 ， 因 为 前 提 “Pl 是 可 判定 的 ”是 不 正确 的 。 


证 明 新 问题 P; 不 可 判定 的 惟一 方法 是 把 已 知 的 不 可 判定 间 题 Pi 归 约 到 P, 上 。 通 过 这 
种 方式 证 明 命 题 “ 如 果 已 是 可 判定 的 ， 则 已 是 可 判定 的 ”。 这 个 命题 的 逆 否 命题 是 “如 
末 Pi 是 不 可 判定 的 ， 则 Ps 是 不 可 判定 的 "。 已 知 Pi 是 不 可 判定 的 ， 所 以 能 推导 出 Ps 是 不 可 
判定 的 。 
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假设 Q 对 输入 y 显 示 hello， wor1ld 作 为 开头 输出 。 于 是 构造 的 R 将 调用 foo0。 ' 但 如 有 果 Q 对 输 
入 y 不 显示 hello， world 作 为 开头 输出 ， 则 构造 的 R 将 永 不 调用 £0oo。 如 果 能 判定 R 对 输入 z 古 
否 调用 foo， 也 就 知道 C 对 输入 y》( 记 住 y = z) 是 否 显 示 hello， world。 因 为 已 知 不 存在 算法 
判定 hello-world 问 题 ， 而 且 通 过 编辑 程序 代码 的 程序 就 能 完成 从 C 构 造 R 的 4 个 步骤 ， 所 以 存在 
foo 调 用 检验 程序 的 假设 是 错误 的 。 不 存在 这 样 的 程序 ，foo 调 用 问题 是 不 可 判定 的 。 口 


8.1.4 习题 


习题 8.1.1 给 出 从 hello-world 问 题 到 下 列 每 个 问题 的 归 约 。 使 用 本 节 的 非 形式 化 风格 来 描述 
那些 似是而非 的 程序 变换 ， 不 要 担心 真实 计算 机 强加 的 诸如 文件 大 小 或 内 存 大 小 这 样 的 真实 限 
制 。 
*#! a) 给 定 程序 和 和 输入， 程序 是 否 最 终 停机 ， 即 程序 在 输入 上 是 否 永 远 不 死 循环 ? 
b) 给 定 程 序 和 输入 ， 程 序 是 否 最 终 产 生 任何 输出 ? 
! 9) 给 定 两 个 程序 和 一 个 输入 ， 这 两 个 程序 对 给 定 输入 是 否 产生 相同 的 输出 ? 


8.2 图 灵机 


不 可 判定 问题 理论 的 目标 ， 不 仅 是 建立 这 类 问题 的 存在 性 (这 本 身 就 是 在 智力 上 使 人 兴 
的 想法 )， 而 且 是 给 程序 员 提 供 通 过 编程 可 能 可 以 做 什么 或 可 能 不 可 以 做 什么 的 指南 。 当 在 第 
10 章 中 讨论 虽 可 判定 但 需 大 量 时 间 才 能 解决 的 问题 时 ， 这 个 理论 也 有 巨大 的 实用 影响 。 这 些 问 
题 ( 即 所 谓 “ 难 解 问题 ") 倾向 于 比 不 可 判定 问题 给 程序 员 和 系统 设计 员 设 置 更 大 的 困难 。 因 
为 不 可 判定 问题 通常 都 是 非常 明显 不 可 判定 的 ， 在 实践 中 几乎 不 需要 解决 这 些 问 题 ， 而 难 解 问 
题 每 天 都 会 遇 到 。 而 且 ， 难 解 问题 常常 让 步 于 需求 中 的 小 改动 或 者 启发 式 解 法 。 因 此 ， 设 计 员 
非常 频 楷 地 遇 到 这 样 的 事情 : 必须 判定 问题 是 否 属于 难 解 的 一 类 ， 如 果 是 ， 就 决定 对 其 采取 什 
么 行动 。 

我 们 需要 一 些 工具 来 证 明日 常 问 题 是 不 可 判定 或 难 解 的 。8.1 节 介绍 的 技术 对 于 涉及 程序 的 
问题 是 有 用 的 ， 但 却 不 容易 转化 到 不 相关 领域 中 的 问题 上 。 例 如 ， 把 hello-world 问 题 归 约 到 文法 
是 否 歧 义 的 问题 上 ， 就 可 能 有 巨大 困难 。 

结 采 是 ， 建 立 不 可 判定 性 理论 需要 不 是 基于 用 C 或 另 一 种 语言 写 的 程序 ， 而 是 基于 非常 简单 
的 计算 机 模型 ， 即 所 谓 图 灵机 。 这 种 装置 本 质 上 是 具有 无 穷 长 的 单条 带 的 有 穷 自动 机 ， 在 带 上 
可 以 读 写 数据 。 作 为 什么 是 能 计算 的 一 种 表示 ， 图 灵机 比 程序 优越 的 一 点 是 图 灵机 足够 简单 ， 
它 采 用 非常 类 似 于 PDA 的 ID 的 简单 记号 ， 就 能 准确 地 表示 图 灵机 的 格局 。 相 比 之 下 ，C 程 序 具 有 
状态 (涉及 任何 已 经 进行 的 函数 调用 序列 中 的 所 有 变 元 )， 但 描述 这 些 状态 的 记号 却 太 复杂 了 ， 
以 致 于 我 们 不 能 做 出 可 理解 的 形式 化 证 明 。 

我 们 将 使 用 图 灵机 记号 来 证 明 与 程序 设计 似乎 无 关 的 某 些 问题 是 不 可 判定 的 。 例 如 ,9.4 节 
将 证 明 涉及 串 的 两 个 表 的 简单 问题 “波斯 特 对 应 问题 ”是 不 可 判定 的 ， 这 个 问题 使 得 容易 证 明 
关于 文法 的 问题 〈 例 如 歧义 性 ) 是 不 可 判定 的 。 同 样 ， 介 绍 难 解 问题 时 将 发 现 与 计算 似乎 无 关 
的 某 些 问题 (例如 布尔 公式 可 满足 性 ) 是 难 解 的 。 
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8.2.1 寻求 判定 所 有 数学 问题 


在 20 世 纪 到 来 之 际 ， 数 学 家 D. 希 尔 伯 特 (D. Hilbert) 问 是 否 有 可 能 找到 算法 来 确定 任何 数 
学 命题 的 真 伪 性 。 具 体 地 说 ， 希 尔 伯 特 问 是 否 存在 方法 来 确定 整数 上 一 阶 谓 词 演算 中 任何 公式 
是 否 为 真 。 整 数 一 阶 谓词 演算 有 足够 能 力 来 表达 像 “这 个 文法 是 歧义 的 ”或 “这 个 程序 显示 
hello,， world 这样 的 命题 ， 所 以 假如 希 尔 伯 特 成 功 了 ， 这 些 问 题 就 有 了 现在 已 知 是 不 存在 
的 算法 。 

但 是 ， 在 1931 年 ，K. 哥 德 尔 (K. G6del) 发 表 了 著名 的 不 完全 性 定理 。 哥 德尔 构造 了 整数 上 
一 阶 谓词 演算 中 的 一 个 公式 ， 这 个 公式 断言 ， 公 式 本 身 在 谓词 演算 中 既 不 能 证 明 也 不 能 证 伪 。 哥 
德尔 的 技术 类 似 于 8.1.2 节 中 自 相 矛盾 的 程序 万 的 构造 ， 但 处 理 的 是 整数 上 的 函数 而 不 是 C 程 序 ， 

谓词 演算 并 不 是 数学 家 拥有 的 “任意 可 能 计算 ”的 惟一 概念 。 事 实 上 ， 谓 词 演算 (与 其 说 
是 计算 性 的 ， 还 不 如 说 是 声明 性 的 ) 必须 与 各 种 记号 竞争 ， 包 括 “ 部 分 递归 函数 ”( 更 类 似 于 程 

325| ” 序 设 计 语言 的 记号 ) 和 其 他 类 似 的 记号 。 在 1936 年 ，A. M. 图 灵 提 议 : 图 灵机 是 “任意 可 能 计算 ” 
的 模型 。 即 使 真正 的 电子 或 电磁 计算 机 在 之 后 几 年 才 问 世 (在 第 二 次 世界 大 战 中 ， 图 灵 本 人 致 
力 于 建造 这 样 的 机 器 )， 图 灵机 模型 也 是 类 似 于 计算 机 的 ， 而 不 是 类 似 于 程序 的 。 

说 来 有 趣 ， 对 于 计算 模型 的 所 有 严肃 提议 都 具有 相同 的 能 力 ， 也 就 是 说 ， 这 些 模 型 计算 相 
同 的 函数 或 识别 相同 的 语言 。 任 意 一 般 的 计算 方式 都 将 只 允许 计算 部 分 递归 函数 (或 等 价 地 说 ， 
图 灵机 或 现代 计算 机 所 能 计算 的 )， 这 个 不 可 证 明 的 假设 就 是 著名 的 堪 坷 假设 (纪念 逻辑 学 家 A. 
丘 奇 ) 或 诺 奇 一 图 只 论 题 。 


8.2.2 图 灵机 的 记号 


如 图 8-8 所 示 我 们 可 以 把 图 灵机 可 视 化 。 这 个 机 器 包含 可 处 于 状态 有 穷 集合 中 任何 一 种 状态 的 
有 穷 控 制 。 有 划分 成 方 格 或 单元 的 磁带 (tape) ， 每 个 单元 可 包含 有 穷 多 种 符号 中 任何 一 种 符号 ， 


有 穷 控制 





图 8-8 图 灵机 


开始 时 ， 输 入 《有 穷 长 度 的 从 输入 字母 表 中 选择 的 符号 的 串 ) 放 在 带 上 。 所 有 其 他 带 单元 
(向 左 、 向 右 都 无 穷 延伸 ) 开始 时 都 包含 一 个 所 谓 空格 的 特殊 符号 。 空 格 是 带 符号 ， 但 不 是 输入 
符号 ， 除 了 输入 符号 和 空格 之 外 ， 还 可 能 有 其 他 的 带 符号 。 

还 有 总 是 位 于 带 单元 之 一 上 的 带头 。 说 图 灵机 正在 扫描 这 个 单元 。 开 始 时 ， 带 头 位 于 包含 
输入 的 最 左 单元 上 。 

图 灵机 的 移动 是 有 穷 控 制 的 状态 和 扫描 的 带 符号 的 函数 。 在 一 步 移动 中 ， 图 灵机 将 ， 

1. 改 变 状态 。 下 一 状态 可 随意 与 当前 状态 相同 。 


A 


2. 在 扫描 的 单元 中 写 带 符号 。 这 个 带 符 号 代替 扫描 的 单元 中 任何 符号 。 所 写 符 号 可 随意 与 
当前 在 那里 的 符号 相同 。 

3. 向 左 或 向 右 移动 带头 。 在 本 书 的 形式 化 中 要 求 带头 移动 而 不 允许 带头 保持 静止 。 这 个 限 
制 不 约束 图 灵机 能 计算 什么 ， 因 为 包含 静止 带头 的 任何 移动 序列 都 可 连同 下 一 个 带头 移 
动 一 起 被 压缩 成 单个 状态 改变 、 新 的 带 符号 以 及 癌 左 或 四 右 移 动 。 

用 于 图 灵机 (TM) 的 形式 化 记号 将 类 似 于 对 有 穷 自动 机 或 PDA 已 经 用 过 的 记号 。 用 七 元 组 

描述 图 灵机 : 
M=(0Q, 2 T,.0, q0B, F.) 


这 些 分 量具 有 下 列 意义 : 

CQ: 有 穷 控 制 的 状态 的 有 穷 集合 。 

了 : 输入 符号 的 有 穷 集 合 。 

T: 带 符 号 的 完整 集合 ，2 总 是 的 子 集合 。 

0: 转移 防 数 。6(q,X) 的 参数 是 状态 9g 和 带 符 号 X。6(gq, 的 值 在 有 定义 时 是 三 元 组 p, 又 DD)， 
其 中 : (1) p 是 下 一 状态 ， 属 于 Q。(2) 7 是 在 当前 扫描 的 单元 中 写 下 的 和 符号， 属于， 代替 
原来 在 那里 的 任何 符号 。(3) D 是 方向 ， 非 L 即 R， 分 别 表示 “ 左 ” 和 “ 右 ”， 说 明 带 头 移 
动 方向 。 


qo: 初始 状态 ， 属于 Q， 开 始 时 有 穷 控 制 就 处 于 这 个 状态 。 


© 


B: 空格 符号 。 这 个 符号 属于 T 但 不 属于 >， 即 不 是 输入 符号 。 开 始 时 ， 空 格 出 现在 除 包含 


输入 符号 的 有 穷 多 个 初始 单元 之 外 的 所 有 单元 中 。 
F『; 终结 状态 或 接受 状态 的 集合 ， 是 8 的 子 集合 。 


8.2.3 图 灵机 的 瞬时 描述 


为 了 形式 化 摘 述 图 灵机 做 什么 ， 需 要 开发 格局 或 瞳 时 描述 (instantaneous description, ID) 的 
记号 ， 类 似 于 曾 为 PDA 开 发 的 记号 。 在 原则 上 ， 图 灵机 有 无 穷 长 的 带 ， 所 以 可 能 认为 不 可 能 简 
短 地 摘 述 TM 格局 。 但 是 ， 在 任何 有 穷 多 步 移动 之 后 ，TM 只 能 访问 有 穷 多 个 单元 ， 尽 管 访问 过 
的 单元 个 数 可 能 逐渐 超过 任何 有 穷 的 界限 。 因 此 ， 在 任何 中， 都 有 未 访问 单元 的 无 穷 单元 前 
缀 和 无 穷 单元 后 缀 。 所 有 单元 都 必须 包含 空格 或 有 穷 多 种 输入 符号 中 的 一 种 。 因 此 在 ID 中 只 说 
明 在 最 左边 与 最 右边 非 空 格 之 间 的 单元 。 在 特殊 情况 下 ， 当 带头 正在 扫描 前 面 或 后 面 的 空格 之 
一 时 ， 带 的 非 空 格 部 分 的 左边 或 布 边 的 有 穷 多 个 空格 也 必须 包含 在 ID 中 。 

除 了 表示 带 之 外 ， 还 必须 表示 有 穷 控 制 和 带头 位 置 。 为 此 把 状态 嵌入 在 带 上 ， 放 在 被 扫描 
单元 紧 挨 着 的 左边 。 为 了 消除 “ 带 加 状态 ”的 字符 串 的 歧义 性 ， 就 必须 确保 不 用 任何 是 带 符号 
的 符号 来 作为 状态 。 但 是 ， 容 易 给 状态 改名 ， 使 得 状态 不 与 带 符 号 有 共同 的 任何 东西 ， 因 为 TM 
的 操作 不 依赖 于 怎样 称呼 状态 。 因 此 ， 将 要 使 用 字符 串 XX2…Xi_19XiXi,1…X%, 来 表示 ID， 其 中 

1. 4 是 图 灵机 的 状态 。 

2. 市 头 正在 扫描 左 起 第 i 企 符号 。 

3.XiX2…X 是 带 的 最 左边 与 最 右边 非 空 格 之 间 的 部 分 。 例 外 情况 是 ， 如 果 带 头 在 最 左 非 空 
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格 的 左边 或 在 最 右 非 空格 的 右边 ， 则 XIX2…X 的 某 个 前 级 或 后 级 将 是 空格 ， 而 i 分 别 是 1 
或 n。 
用 PDA 用 过 的 片 ,记号 来 描述 图 灵机 M = (Q, 3, 工 ,6, go, B, 万 的 移动 。 当 TM M 是 已 知 时 ， 将 
只 用 上 来 表示 移动 。 和 通常 一 样 ， 将 用 版 或 只 用 上 来 表示 TM M 的 零 步 、 一 步 或 多 步 移动 。 
假设 0(gq， Ai) = (p, 3 LD); 即 下 一 步 移动 是 向 左 的 。 则 
KIX2* A GXXi4 1 Fy XX Xi pK 1YX; 1… 
注意 ， 这 个 移动 如 何 表 示 变 为 状态 p 和 带头 现在 在 单元 i~1 的 事实 。 有 两 个 重要 的 例外 : 
1. 如 采 ; = 1， 则 M 移 动 到 Xi 左边 的 空格 。 在 这 种 情况 下 ， 
IXIX2…X， FpBYX2…X, 
2. 如 果 i=n 且 Y=B， 则 在 X, 上 写 下 的 符号 B 加 入 后 面 空格 的 无 穷 序 列 ， 并 且 不 出 现在 下 一 个 
ID 中 。 因 此 ， 
» ,CD Gan Vs 片 XXX2…X， 2DX | 
现在 ,假设 Vgq,)=(p,Y,R); 即 下 一 步 移动 是 向 右 的 。 则 
XIX2… “Xi_19XiXit! A bs; XIX2*" Xi 1 YpXini vk 
328| 这 里 ， 这 个 移动 表示 带头 已 经 移动 到 单元 ;+ 1 的 事实 。 同 样 有 两 个 重要 的 例外 ， 
1. 如 末 i = n， 则 第 i+ 1 个 单元 包含 空格 ， 并 且 这 个 单元 不 是 前 一 个 ID 的 一 部 分 。 因 此 ， 相 应 
就 有 
XIX2…Xn19Xn by XXX 1YpB 
2. 如 果 i = 1 并 且 Y = B， 则 在 X, 上 写 下 的 符号 B 加 入 前 面 空格 的 无 穷 序列 ， 并 且 不 出 现在 下 一 
个 ID 中 。 因 此 ， 
IOXILX2…X， 片 PX2…X 


例 8.2 设计 图 灵机 并 观察 这 个 图 灵机 在 典型 输入 上 如 何 动 作 。 所 构造 的 TM 将 接受 语言 
{0"1" 1 n 之 1}。 开 始 时 ， 在 带 上 给 定 0 和 1 的 有 穷 序 列 ， 前 后 都 是 无 穷 的 空格 。 交 赫 地 ， 这 个 TM 
将 把 一 个 0 改 成 XxX， 然后 把 一 个 1 改 成 Y， 直 到 所 有 的 0 和 1 都 已 经 匹配 了 为 止 。 

更 详细 地 说 ， 从 输入 左 端 开始 ， 进 入 一 个 循环 ， 在 这 个 循环 中 把 一 个 0 改 成 X， 然 后 向 右 移 
动 越过 看 到 的 任何 0 和 7， 直 到 到 达 1。 把 这 个 1 改 成 Y， 向 左 移动 越过 下 0， 直 到 发 现 一 个 X。 在 
这 个 时 刻 ， 寻 找 右 边 紧 挨 着 的 0， 如 果 找 到 0， 就 把 这 个 0 改 成 X%， 并 且 重 复 上 述 过 程 ， 把 一 个 匹 
配 的 1 改 成 Y。 

如 来 非 空 格 输入 不 是 0"1' 的 形式 ， 则 这 个 TM 最 终 将 无 法 进行 下 一 步 移动 ， 并 且 将 死机 而 不 
接受 。 但 是 ， 如 果 这 个 TM 在 把 最 后 一 个 1 改 成 Y 的 同一 轮 完 成 了 把 所 有 0 都 改 成 X， 则 这 个 TM 已 
经 发 现 了 输入 具有 0"1" 的 形式 并 接受 。 这 个 TM M 的 形式 化 说 明 是 

M = ( {qo, q1, q2, 93, 94}, {0, 1}, {0, 1, X, Y, B}, 6, qo, B, { qa} ) 
其 中 6 用 图 8-9 中 的 表 来 给 出 。 
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dl (gi ) 0， R) (92， L) Wn (gi 》 &,; R) 
g2 (92， 0, 工 ) (9o， 人 R) (g2, ¥, L) 


(gs, 3 R) (94， 本， R) 


d3 区 
d4 3 


图 8-9 接受 {0"1"1n>1} 的 图 灵机 


当 M 执 行 其 计算 时 ，WM 的 带头 已 经 访问 过 的 这 部 分 带 将 总 是 用 正则 表达 式 和 0 YL 来 描述 的 
符号 序列 。 也 就 是 说 ， 将 有 一 些 0 已 经 改 成 X， 接 着 是 一 些 还 没有 改 成 X 的 0。 然 后 有 一 些 1 已 经 改 
成 Y， 接 着 是 一 些 还 没有 改 成 Y 的 1。 既 可 能 有 也 可 能 设 有 一 些 0 和 1 跟 在 后 面 。 

状态 wo 是 初始 状态 ，M 每 次 回 到 剩 下 最 左边 的 0 时 ，M 也 进入 状态 go。 如 果 M 处 在 状态 do 并 扫 
找 0， 则 图 8-9 中 左上 角 规 则 说 M 进 入 状态 9 ， 把 0 改 成 X 并 向 右 移动 。 一 旦 进入 qi:，M 就 一 直 辐 布 
移动 越过 在 带 上 发 现 的 所 有 0 和 YY， 保持 在 状态 q+。 如 果 M 看 到 X 或 B， 就 死机 。 但 是 ， 如 果 M 处 在 
状态 q! 时 看 到 1， 则 把 这 个 1 改 成 Y， 进 入 状态 q: 并 开始 癌 左 移动 。 

在 状态 9 中，M 疝 左 移动 越过 0 和 Y， 保持 在 状态 9 中。 当 M 到 达标 志 着 已 经 改 成 X 的 0 的 块 右 
端的 最 右边 X 时 ，M 就 回 到 状态 qo 并 向 右 移动 。 有 两 种 情况 : 

1. 如 果 M 现 在 看 到 一 个 0， 则 M 重 复 刚 刚 描述 过 的 匹配 循环 。 

2. 如 果 M 看 到 一 个 ”， 则 M 已 经 把 所 有 0 都 改 成 了 X。 如 果 所 有 1 都 已 经 改 成 了 了 Y， 则 输入 具有 

0"1" 的 形式 ，M 就 应 当 接 受 。 因 此 ，M 进 入 状态 q;3 并 开始 向 右 移 动 越过 Y。 如 果 M 在 除了 Y 
之 外 看 到 的 第 一 个 符号 是 空格 ， 则 确实 有 相同 数目 的 0 和 1， 所 以 M 进 入 状态 qs 并 接受 。 另 
一 方面 ， 如 果 M 遇 到 另 一 个 1， 则 有 太 多 的 1， 所 以 M 死 机 而 不 接受 。 如 果 M 遇 到 一 个 0， 
则 输入 具有 错误 形式 ，M 也 死机 。 

下 面 是 M 的 接受 计算 的 例子 。 输 入 是 0011。 开 始 时 ，M 处 于 状态 9o， 扫 描 第 一 个 0， 即 MM 的 初 

始 ID 是 qo0011。M 的 整个 移动 序列 为 : 
qo0011 上 -XXq1011 |X0gq111 上 Xo2071 | 上 - qzX07Y1 上 
Xao07T 上 XXqiY1 | XXYn!l | XXaqYY | Yq2XYY | 
XXgoYY 上 XXYga3Y 上 XXYYg3B |- XXYYBq4B 
举 另 一 个 例子 ， 考 虑 M 在 输入 0010 上 做 什么 ， 这 个 输入 不 属于 被 接受 的 语言 。 
go0010 上 Xai010 上 X0g110 上 Xo2070 上 FwX0O7O 上 
Xaqo070 上 XX970 |- XXYg0 上 XXX7091B 

M 在 0010 上 的 动作 类 似 于 在 0011 上 的 动作 ， 直 到 在 ID XX 和 30 中 M 第 一 次 扫描 最 后 这 个 0 为 止 。 
M 必 须 问 右 移 动 ， 保 持 处 在 状态 91: 中 ， 这 使 得 M 到 达 ID XXY0q1.8。 但 是 ， 在 状态 qt 中 ，M 在 带 符 
号 B 上 没有 任何 移动 ， 因 此 M 死 机 而 不 接受 输入 。 口 


8.2.4 图 灵机 转移 图 


大 体 类 似 于 对 PDA 的 做 法 ， 可 用 图 形 表 示 图 灵机 的 转移 。 转 移 图 包含 对 应 于 TM 状态 的 节点 
集合 。 用 一 个 或 多 个 形 如 X/YD 的 项 目 来 标记 从 状态 9 到 状态 p 的 弧 ，X 和 了 是 带 符号 ，D 是 方向 


(人 
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( 非 Z 即 R) 。 也 就 是 说 ， 每 当 59, 习 = (p,7, D) 时 ， 就 在 从 gq 到 p 的 弧 上 找到 标记 X/YD。 但 是 ， 在 本 
书 的 图 中 ， 用 图 形 表示 方向 D， 即 用 表示“ 左 ”， 用 一 表示 “ 右 ”。 

与 其 他 类 型 的 转移 图 一 样 ， 用 单词 “Start” 表 示 初 始 状 态 ， 并 且 有 一 个 箭头 进入 这 个 状态 。 
用 双 圆 环 表示 接受 状态 。 因 此 ，TM 不 能 从 图 中 直接 读 出 的 惟一 信息 就 是 用 来 表示 空格 的 符号 。 
将 假设 这 个 符号 是 8， 除非 男 有 说 明 。 


例 8.3 图 8-10 显 示例 8.2 中 的 图 灵机 的 转移 图 ， 图 8-9 中 给 出 这 个 图 灵机 的 转移 函数 。 四 
例 8.4 尽管 现在 发 现 认 为 图 灵机 是 语言 识别 器 ， 或 等 价 地 认为 是 问题 解答 器 ， 这 是 最 方便 


的 ， 但 图 灵 原 来 认为 图 灵机 是 整数 值 函数 的 计算 7/ 了 一 
器 。 在 图 灵 的 框架 中 ， 用 一 进 制 把 整数 表示 成 音 Co i 
一 字符 的 块 ， 机 器 通过 改变 块 长 度 或 在 带 上 别处 i > Spe 
构造 新 块 来 进行 计算 。 在 这 个 简单 例子 中 ， 将 说 @) 


明 图 灵机 如 何 计 算 定 义 成 mn = max(mn, 0) 的 所 
谓 真 碱 函数 二 。 也 就 是 说 ， 如 果 m 宇 n， 则 mm 一 n = 
m 一 n; 如 果 m < n， 则 m 一 n = 0。 
执行 这 种 运算 的 TM 说 明 如 下 : 
M=( {qo,q1,…, qs }, {0, 1}, {0, 1, B}, 6, qo, B ) 


注意 ， 这 个 TM 不 用 于 接受 输入 ， 所 以 省 略 了 接受 
状态 集合 的 第 7 个 分 量 。W 将 从 空格 围绕 的 0"10" 组 71/ 了 ~ 
成 的 带 开 始 。M 停 机 时 带 上 是 空格 围绕 的 0 一 "。 图 8-10 接受 形 如 0"1" 的 串 的 TM 的 转移 图 

MM 重复 地 寻找 剩 下 的 最 左边 0 并 把 这 个 0 换 成 空格 。 然 后 M 向 右 搜索 寻找 1。 在 找到 1 之 后 ， 继 
续 同 右 直 到 到 达 0， 把 这 个 0 换 成 1。M 然 后 回 到 左边 寻找 最 左边 9， 当 M 首 次 遇 到 空格 然后 向 右 移 
动 一 个 单元 时 就 认 出 这 个 0。 当 发 生 下 列 情况 之 一 时 终止 这 种 重复 动作 : 

1. 在 癌 右 搜索 一 个 0 时 M 遇 到 空格 。 则 0"10" 中 的 n 个 0 都 已 经 改 成 1，m 个 0 中 的 n + 1 个 都 已 经 
改 成 B。M 把 n + 1 个 1 都 换 成 B， 再 把 这 n + 1 个 8 中 最 左边 的 B 换 成 0， 在 带 上 剩 下 mn 个 0、。 
因为 mn， 所 以 在 这 种 情况 下 mn = m 一 n。 

2. 在 循环 开始 时 MM 找 不 到 能 改 成 空格 的 0%， 因 为 前 m 个 0 都 已 经 改 成 B。 则 n 宇 m， 所 以 mn =0。 
M 把 所 有 剩 下 的 1 和 0 都 改 成 8 并且 结束 时 带 上 全 是 空格 。 

图 8-11 给 出 转移 函数 6 的 规则 ， 在 图 8-12 中 还 把 6 表示 成 转移 图 。 下 面 总 结 7 种 状态 中 每 一 种 

的 作用 : 

qo: 循环 从 这 个 状态 开始 ， 并 在 适当 时 在 这 个 状态 终止 。 如 果 M 正 在 扫描 0， 则 循环 一 定 重 
复 。 把 这 个 0 改 成 B， 带 头 向 右 移动 ， 进 入 状态 q!。 另 一 方面 ， 如 果 M 正 在 扫描 1， 则 在 
市 上 两 组 0 之 间 所 有 匹配 都 已 经 完成 ，M 进 入 状态 gs 使 带 变 为 空格 。 

q1: 在 这 个 状态 中 ，M 向 右 搜索 ， 经 过 第 一 块 0， 寻 找 最 左边 1。 找 到 时 M 就 进入 状态 wo。 

92: 1M 加 右 移动 ， 越 过 1 直到 发 现 0。M 把 这 个 0 改 成 1， 转 而 向 左 并 进入 状态 。 但 也 可 能 在 1 
的 块 之 后 没有 剩 下 多 余 的 0。 在 这 种 情况 下 ，M 在 状态 q; 遇 到 空格 。 有 上 面 描 述 过 的 情 
形 (1)， 已 经 用 第 二 块 0 中 n 个 0 来 消除 第 一 块 m 个 0 中 的 个 ， 已 经 完成 减法 。M 进 入 目标 





清风 和 


是 把 带 上 1 都 变 成 空格 的 状态 44。 

43: 1M 癌 左 移动 ， 越 过 0 和 1 直到 发 现 空 格 。 当 M 发 现 B 时 ，M 就 癌 右 移动 并 回 到 状态 go， 再 次 
开始 循环 。 

44; 在 这 里 , 已 经 完成 减法 , 但 把 第 一 块 中 一 个 不 匹配 的 0 不 正确 地 改 成 B。M 因 此 向 左 移动 ， 
把 1 都 改 成 B 直 到 在 带 上 遇 到 B。M 把 这 个 B 改 回 到 0 并 进入 状态 9g6， 在 ge 中 MM 停 机 。 

95: 当 M 发 现 第 一 块 中 所 有 0 都 已 经 改 成 B 时 ， 就 从 状态 qo 进入 状态 q;。 在 这 种 情况 ( 即 上 述 
(2) 中 描述 的 ) 下 ， 真 减 的 结果 是 0。M 把 所 有 剩 下 的 0 和 1 都 改 成 3B 并 进入 状态 ge。 

96: 这 个 状态 的 惟一 目标 就 是 当 M 完 成 任务 时 允许 M 停 机 。 假 如 这 个 减法 是 某 个 更 复杂 函数 


的 子 例 程 ， 则 ge 就 启动 更 大 计算 的 下 一 个 步骤 。 口 
符号 
状态 0 1 






(gs;B, R) 
dl (gq1, 0, R) (q2， 可 R) a 

d2 (gs, 1, 5) (qz2, 1, R) (qa,; B,L) 
gs | (ga,0,Z (gs,1,L) (go,B,R) 
d4 (qa, 0， L) (gq4, B, L) (96， 0， R) 
Gd5 (gs, B, R) (gs, B, R) (ge, B, R) 








,i UO 
I AS 2 fgg La Br 


图 8-12 例 8.4 的 TM 的 转移 图 


8.2.5 图 灵机 的 语言 


已 经 直观 提示 了 图 灵机 接受 语言 的 方式 。 输 入 字符 串 放 在 带 上 ， 带 头 开始 时 在 最 左边 的 输 
入 符号 上 。 如 果 TM 最 终 进入 接受 状态 ， 则 接受 输入 ， 否 则 就 不 接受 。 
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更 形式 化 地 说 ， 设 M = (Q，2, 了 T, 6, qo, B, F) 是 图 灵机 。 则 ZL(MW) 是 对 于 属于 F 的 某 个 状态 p 以 
及 任意 带 串 wc 和 B， 使 得 gow 上 apB 的 2* 中 串 w 的 集合 。 讨 论 例 8.2 中 接受 形 如 0"1" 串 的 图 灵机 时 
就 假设 了 这 个 定义 。 

使 用 图 灵机 我 们 可 以 接受 的 语言 集合 通常 称 为 递归 可 枚 举 语言 或 RE 语言 ,“ 递 归 可 枚 举 ” 
这 个 术语 来 自在 图 灵机 之 前 对 计算 的 形式 化 ， 但 这 个 术语 定义 相同 的 语言 类 或 算术 函数 类 。 
9.2.1 市 中 将 讨论 这 个 术语 的 起 源 ， 作 为 辅 加 材料 ( 方 框 )。 


图 灵机 的 记号 约定 
通常 采用 的 图 灵机 符号 类 似 于 已 经 见 到 的 对 其 他 类 型 自动 机 采用 的 符号 。 
1. 英语 字母 表 开头 的 小 写字 母 表示 输入 符号 。 
2. 大 写字 母 (通常 是 英语 字母 表 靠 后 的 那些 字母 ) 用 来 表示 带 符号 ， 这 些 符 号 既 可 能 


是 输入 符号 也 可 能 不 是 。 但 一 般 用 8B 表示 空格 符号 。 
3. 笑语 字母 表 靠 后 的 小 写字 母 是 输入 符号 的 串 。 
4. 希腊 字母 是 带 符号 的 串 。 
5. 诸如 gq,p 这 样 的 字母 和 附近 的 字母 是 状态 。 





8.2.6 图 灵机 与 停机 


第 第 把 男 一 种 “接受 ”概念 用 于 图 灵机 : 以 停机 方式 接受 。 如 果 TM 进 入 状态 9， 扫 描 带 符 
写 X， 并 且 在 这 种 情况 下 没有 移动 ( 即 6(q, 无 定义 )， 则 说 TM 停机 。 


例 8.5 ” 例 8:4 的 图 灵机 MM 不 是 设计 来 接受 语言 的 ， 更 恰当 的 是 认为 这 个 图 灵机 计算 算术 函 

数 。 但 注意 这 个 图 灵机 在 所 有 0 和 1 字符 串 上 都 停机 ， 因 为 无 论 M 在 带 上 发 现 什 么 字符 串 ，M 最 

332| ” 终 都 删除 第 二 组 0 〈 假 如 在 第 一 组 0 之 外 还 能 找到 这 样 一 组 的 话 ) ， 因 此 M 一 定 进入 状态 gs 并 停 
334|， 和 入 合 


总 能 假设 如 果 图 灵机 接受 ， 则 图 灵机 停机 。 也 就 是 说 ， 每 当 g 是 接受 状态 时 ， 就 能 让 6(gq, %) 
无 定义 ， 这 样 做 不 改变 所 接受 的 语言 。 在 一 般 情况 下 ， 除 非 男 有 说 明 : 

“假设 图 灵机 处 在 接受 状态 时 总 是 停机 。 

但 是 ， 即 使 TM 不 接受 ， 也 不 总 是 可 能 让 TM 停 机 。 无 论 是 否 接受 最 终 都 停机 的 图 灵机 的 语 
言 称 为 递归 的 ， 将 从 9.2.1 节 中 开始 考虑 这 些 语 言 的 重要 性 质 。 无 论 是 否 接受 都 总 是 停机 的 图 灵 
机 是 “算法 ”的 好 模型 。 如 果 解 答 给 定 问题 的 算法 存在 ， 则 说 这 个 问题 是 “可 判定 的 "， 所 以 在 
第 9 章 中 ， 总 是 停机 的 TM 在 可 判定 性 理论 中 起 重要 作用 。 


8.2.7 习题 


习题 8.2.1 说 明 图 8-9 中 的 图 灵机 的 ID ， 如 果 输 入 带 包 括 ; 
* a) 00 。 
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b) 000111。 
cy O01il, 335 
! 习题 8.2.2 设计 接受 下 列 语言 的 图 灵机 : 
* 3) 带 有 相同 个 数 的 0 和 1 的 串 的 集合 。 
DY OnRDCEDZTL 。 
c) { wws1w 是 任意 的 0 和 1 的 串 }。 
习题 8.2.3 ”设计 以 二 进 制 数字 N 作 为 输入 并 把 输入 加 1 的 图 灵机 。 准 确 地 说 ， 开 始 时 带 包含 
着 $ 和 后 面 跟着 的 二 进 制 N。 开 始 时 带头 在 状态 qo 中 扫描 $。 所 设计 的 TM 应 当 停 机 ， 停 机 时 带 上 
有 二 进 制 的 N 并 在 状态 gq/ 中 扫描 N + 1 的 最 左 符 号 。 必 要 时 ， 在 产生 N + 1 时 可 消除 $。 例 如 ， 
qo$10011 上 $da10100， 以 及 4o$11111 上 qr100000。 
a) 给 出 所 设计 的 图 灵机 的 转移 ， 并 解释 每 个 状态 的 目的 。 
b) 当 给 定 输入 $111 时 ， 说 明 TM 的 ID 序列 。 

*! 习题 8.2.4 ”在 本 题 中 ， 讨 论 图 灵机 在 函数 计算 与 语言 识别 之 间 的 等 价 性 。 为 了 简单 起 见 ， 
将 只 考虑 从 非 负 整数 到 非 负 整数 的 函数 ， 但 这 个 问题 的 思想 适用 于 任何 可 计算 函数 。 下 面 是 两 
个 核心 定义 : 

。 定 义 函 数 f 的 图 是 所 有 形 如 [x, fx)] 的 串 的 集合 ，x 是 二 进 制 非 负 整数 ，ftx) 是 函数 /在 输入 x 
上 也 写成 二 进 制 的 值 。 
。 如果 开 始 时 在 带 上 有 非 负 整数 x-， 图 灵机 停机 (在 任意 状态 ) 并 且 在 带 上 有 二 进 制 的 fx)， 
则 说 这 个 图 灵机 计算 函数 J。 
用 非 形式 化 但 清楚 的 构造 来 回答 下 列 问 题 。 
a) 说 明 给 定 计 算 f 的 图 灵机 之 后 ， 如 何 构 造 把 f 的 图 当 作 语言 来 接受 的 图 灵机 .。 
b) 说 明 给 定 接受 f 的 图 的 图 灵机 之 后 ， 如 何 构 造 计算 f 的 图 灵机 。 
0) 如 果 函 数 对 于 某 些 参数 可 能 没有 定义 ， 则 说 这 个 函数 是 部 分 的 (或 偏 的 )。 如 果 把 这 个 习 
题 的 想法 推广 到 部 分 函数 ， 则 当 输 入 x 是 让 fx) 无 定义 的 整数 之 一 时 ， 就 不 要 求 计 算 f 的 图 
灵机 停机 。 如 果 函 数 是 部 分 的 ， 那 么 读者 对 (a) 和 (b) 部 分 的 构造 还 起 作用 吗 ? 如 果 不 起 
作用 ， 解 释 一 下 可 以 如 何 修改 这 个 构造 使 之 起 作用 。 
习题 8.2.5 芳 虑 图 灵机 
M = ( {qo,q1, 92, qf }, 40, 1}, {0, 1,B},0, qo, B, {qr } ) 
非 形式 化 但 清楚 地 描述 语言 CAM)， 如 采 吕 包含 下 列 规则 集合 : 
* a) 0(qo, 0)= (gi,1,R); qi,1)=( go,0,R); (qi,B)= (4g,B,R). 
b) (qo, 0) = ( qo, B, R); (go, 1)=(gqi1,B,R); (qi,1)=(4qi,B,R); (qi,B)=(g,B,R), 
! c) 0(qo,0)= (qi,1,R); dqi,1)=( 9g;,0,L); 0(g;,1)=( go,1,R); dqi,B)= (gr,B,R). 


8.3 图 灵机 的 程序 设计 技术 


本 市 的 目标 是 让 读者 感受 图 灵机 如 何 能 用 与 常规 计算 机 相同 的 方式 来 计算 。 最 终 ， 希 望 说 
服 读者 相信 图 灵机 与 常规 计算 机 能 力 恰好 是 相同 的 。 有 具体 地 说 ， 将 要 了 解 到 图 灵机 能 在 其 他 图 
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灵机 上 执行 在 8.1.2 市 中 看 到 过 的 程序 检查 其 他 程序 的 那 种 计算 。 正 是 图 灵机 和 计算 机 程序 都 具 
有 的 这 种 “内 省 ”能 力 才 使 我 们 能 够 证 明 问 题 是 不 可 判定 的 。 

为 了 更 清楚 地 揭示 TM 的 能 力 ， 将 提供 许多 例子 说 明 可 能 如 何 考虑 图 灵机 的 带 和 有 穷 控制 。 
这 些 技巧 不 扩展 TM 的 基本 模型 ， 它 们 只 是 记号 上 的 便利 。 稍 后 ， 将 利用 这 些 技巧 让 基本 TM 模 
型 模拟 具有 附加 特性 (比如 ， 多 带 ) 的 扩展 图 灵机 模型 。 


8.3.1 在 状态 中 存储 


利用 有 穷 控 制 ， 不 仅 能 表示 图 灵机 “程序 ”中 的 位 置 ， 还 能 保存 有 穷 数 量 的 数据 。 图 8-13 
说 明 这 种 技术 ' (和 另 一 个 思想 : 多 道 )。 在 该 图 中 看 到 有 穷 控 制 不 仅 包含 “控制 ”状态 9， 还 包 
含 三 个 数据 元 素 A, 8B, C。 这 种 技术 不 要 求 扩展 TM 模型 ， 只 是 认为 状态 是 元 组 。 在 图 8-13 的 情形 
中 ， 应 当 认 为 状态 是 [g, 4, B, Cl]。 这 样 看 待 状态 就 可 以 以 更 为 系统 化 的 方式 来 描述 转移 ， 常 常 使 
337| ”得 TM 程序 背后 的 策略 更 加 清楚 。 





图 8-13 认为 图 灵机 具有 有 穷 控 制 存储 和 多 道 


例 8.6 设计 TM 
M=(0Q,10,1},1{0, 1,B},6, [go,B],B, {[gqi, BJ]}) 
这 个 TM 在 有 穷 控 制 中 记 住 看 到 的 第 一 个 符号 (0 或 1)， 并 验证 这 个 符号 不 在 输入 中 别处 出 现 ， 
因此 ，W 接 受 语言 01 + 10*。 接 受 诸如 这 个 语言 的 正则 语言 ， 这 并 不 强调 图 灵机 的 能 力 ， 只 是 作 
为 简单 演示 。 
状态 集合 Q 是 {gqo, q1} x {0, 1, B}。 也 就 是 说 ， 可 以 认为 状态 是 具有 两 个 分 量 的 有 序 对 ， 
a) 控制 部 分 (go 或 q1) 记 住 TM 正在 做 什么 。 控 制 状态 qo 表示 MM 还 没有 读 第 一 个 符号 ， 4! 表 示 
MM 已 经 读 了 这 个 符号 ， 并 正在 通过 向 右 移动 希望 到 达 空 格 单元 来 验证 这 个 符号 不 在 别处 
出 现 。 
b) 数据 部 分 记 住 看 到 的 第 一 个 符号 (一 定 是 0 或 1) 。 这 个 分 量 中 的 8B 意味 着 还 没有 读 符号 ， 
M 的 转移 函数 6 如 下 : 
1. 对 于 a = 0 或 4 = 1，6([go, B], a) = ([q1, a], a, R)。 开 始 时 ,go 是 控制 状态 ， 其 数据 部 分 是 B- 
MM 把 扫描 符号 复制 到 状态 第 二 个 分 量 中 ， 并 向 右 移动 ， 在 这 样 做 时 进入 控制 状态 qi。 
2. 6([q,,4],a) =([q,,a],a,R)， 其 中 a 是 a 的 “ 补 ”， 也 就 是 说 ， 如 果 a = 1 则 a 是 0， 如 果 a = 0 
则 a 是 1。 在 状态 q+/，M 越 过 与 状态 中 所 保存 符号 不 同 的 每 个 符号 0 或 1， 并 连续 向 石 移动 。 


A ww 


3. 对 于 a = 0 或 a = 1，6t([q1; a], B) = (9 83] B, R)。 如 果 M 到 达 第 一 个 空格 ， 则 MM 进入 接受 状 


态 [q1; B]。 2 
注意 ， 对 于 a = 0 或 a = 1，M 对 于 6([9 qj; 9) 没 有 定义 。 因此 ,如果 M 遇 到 开始 时 有 穷 控 制 中 
保存 的 符号 第 二 次 出 现 ， 则 MM 停机 而 不 进入 接受 状态 。 站 
8.3.2 多 道 


男 一 种 有 用 “技巧 ”是 认为 由 几 个 道 组 成 图 灵机 的 带 。 每 道 可 包含 一 个 符号 ， 由 多 元 组 组 
成 图 灵机 带 字母 表 ， 每 “ 道 ” 对 应 一 个 分 量 。 因 此 ， 例 如 图 8-13 中 带头 扫描 的 单元 包含 着 符号 
区 , 7, 可 。 类 似 于 在 有 穷 控 制 中 存储 的 技术 ， 使 用 多 道 并 不 扩展 图 灵机 所 能 做 的 。 这 只 是 考虑 带 
符号 并 想像 带 符号 具有 有 用 结构 的 一 种 方式 。 


例 8.7 ”多 道 的 常见 用 法 是 认为 一 个 道 包含 数据 ， 第 二 道 包 含 标记 。 在 “使 用 ”符号 时 能 核 
对 每 个 符号 ， 或 只 标记 数据 中 少量 位 置 来 跟踪 这 些 位 置 。 例 8.2 和 例 8.4 是 这 种 技术 的 两 个 例子 ， 
但 在 这 两 个 例子 中 没有 明确 地 认为 带 由 道 组 成 。 在 目前 的 例子 中 将 要 明确 地 使 用 第 二 道 来 识别 


上 下 文 无 关 语言 
Lvow ={wcwlw 属 于 0+1*} 
将 要 设计 的 图 灵机 是 
M=(0Q, >,T,6,[g,B],[B, Bl],{[go, Bl]}) 
其 中 ， : 
Q: 状态 的 集合 是 {g1, gy, …, go} x {0, 1, 8}， 即 由 控制 状态 4; 和 数据 分 量 0 或 1 组 成 的 有 序 对 。 


上 


2: 


再 次 使 用 在 有 穷 控制 中 存储 的 技术 ， 因 为 允许 状态 去 记忆 输入 符号 0 或 1。 

带 符 号 的 集合 是 {B, *} x {0, 1, c, B}。 第 一 分 量 (或 道 ) 可 以 是 空格 或 “已 核对 ”， 分 别 
用 符号 B 和 * 来 表示 。 用 符号 * 来 核对 第 一 组 和 第 二 组 的 和 1， 最 终 确 认 中心 标 记 c 左 边 的 
串 与 右边 的 串 是 相同 的 。 认 为 带 符 号 第 二 分 量 是 带 符号 本 身 。 也 就 是 说 ;可 认为 对 于 X 
=0,1,c,B， 符 号 [B, 如 是 带 符号 X。 

输入 符号 是 [B,0]，[B, 1] 和 [8B, cj]， 就 像 上 面 提 到 的 ，0，1 和 C 分 别 进行 识别 。 


0: 下列 规则 定义 转移 函数 6， 其 中 a 和 4b 可 表示 0 或 1。 


1) of B]; [B, al) = ([q; a], [*, a],R)。 在 初始 状态 中 ，M 读 入 符号 a (a 可 以 是 0 或 1)， 在 
有 穷 控 制 中 保存 a， 进入 控制 状态 9;,“ 核 对 ”刚刚 扫描 的 符号 ， 并 向 右 移动 。 注 意 ， 
通过 把 带 符号 第 一 分 量 从 B 改 成 * 来 进行 核对 。 

2) 0([q2, a], [8B, 5]) = ([q2, a], [B,b],R)。M 向 右 移动 寻找 符号 c。 读 者 要 记 住 a 和 4b 相互 独立 ， 
每 个 都 能 是 0 或 1， 但 不 能 是 c。 

3) 6([92, a], [B, c]) = ([gs, Qa], [8B, c], R)。 当 MM 找到 c 时 继续 向 右 移 动 ， 但 变 成 控制 状态 q;。 

4) [qs, a], [*, 5b]) = ([q3, a], [*, b], R)。 在 状态 q; 中 ，M 继 续 越 过 所 有 已 核对 的 符号 。 

5) od([q3, a], [B, a]) = ([q4, B], [*, a], ZL)。 如 果 M 找 到 的 第 一 个 未 核对 符号 与 有 穷 控 制 中 符 
号 相同 ， 则 核对 这 个 符号 ， 因 为 这 个 符号 已 经 匹配 了 第 一 个 0 和 1 块 中 的 对 应 符号 。M 
进入 控制 状态 g4， 清 除 有 穷 控 制 中 符号 ， 并 开始 向 左 移动 。 
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6) 0([94, B], [*, a]) = ([q4, 8],[*, a], LD)。M 同 左 移动 越过 已 核对 符号 。 

7) 6([9s, B], [B, c]) = ([gs, B], [8, c], L)。 当 MM 过 到 符号 c< 时 M 切 换 到 状态 qs 并 继续 向 左 。 在 
状态 4 中， 根据 紧 挨 在 c 左 边 的 符号 是 否 被 核对 ，M 必 须 做 出 判断 。 如 果 被 核对 ， 则 已 
经 考虑 了 整个 第 一 个 0 和 1 块 〈 都 在 c 的 左边 )。 必 须 保 证 c 右 边 的 所 有 0 和 1 也 都 被 核对 。 
如 本 紧 挨 在 c 左 边 的 符号 没有 核对 过 ， 则 找 出 最 左边 没有 未 核对 的 符号 ， 读 入 这 个 符 
号 ， 并 在 状态 4 中 开始 循环 。 

8) 0([gs; B], [B, a]) = ([q6; B], [B, a], L)。 这 个 分 支 适 用 于 c 左 边 的 符号 没有 核对 过 的 情形 。 
M 进 入 状态 96， 并 继续 向 左 寻 找 已 核对 的 符号 。 

2) A([ge, B], [B, a]) = ([qe, B], [B, q], L)。 只 要 还 未 核对 的 符号 ，M 就 保持 在 状态 qe 中 并 继 
续 同 左 。 

10) od([gs, B], [*, a]) = ([qi, B], [*, a], R)。 当 MM 找到 已 核对 的 符号 时 就 进入 状态 q+:， 并 向 右 
移动 来 读 入 第 一 个 未 核对 的 符号 。 

11) 0([gs, B], [*, a]) = ([q7, B], [*, a], R)。 现 在 ， 看 看 从 状态 4s 发 出 的 分 支 ， 其 中 刚刚 从 c 
站 左 移动 并 发 现 一 个 已 核对 的 符号 。 再 次 开始 向 右 移 动 并 进入 状态 q，。 

12) a([g7, B], [B, c]) = ([gs, B], [B, c], R)。 在 状态 9 中 肯定 将 看 到 c。 此 后 进入 状态 gs 并 向 


右 移 动 。 
13) 0([Gs, B], [*, a]) = ([qs, B], [*, a], R)。 在 状态 gs 中 ，M 向 右 移动 ， 越 过 所 有 发 现 的 已 核 
对 的 0 或 1。 


14) A([gs, B], [B, B]) = ([9o, B], [B, B], R)。 如 果 M 在 状态 qs 中 到 达 空 格 且 没有 遇 到 任何 未 选 
中 的 0 或 1， 则 MM 接受 。 如 果 M 先 发 现 未 核对 的 0 或 1， 则 说 明 在 c 前 后 的 块 不 匹配 ，M 
停机 而 不 接受 。 各 


8.3.3 子 程序 


像 一 般 情况 下 对 于 程序 那样 ， 认 为 图 灵机 是 由 一 组 交互 作用 的 构件 或 “ 子 程序 ”来 建立 的 ， 
这 是 有 帮助 的 。 图 灵机 子 程序 就 是 执行 某 个 有 用 程序 的 状态 集合 。 这 个 状态 集合 包含 初始 状态 
和 田 一 个 暂时 没有 移动 的 状态 ， 后 面 这 个 状态 是 “返回 ”状态 ， 作 用 是 把 控制 交 回 到 调用 子 程 
序 的 任何 其 他 状态 的 集合 。 每 当 存在 到 初始 状态 的 转移 时 就 发 生子 程序 “调用 ”。TM 无 法 记 住 
返回 地 址 ”( 即 子 程 序 结束 后 进入 的 状态 )， 所 以 假如 TM 设计 要 求 从 多 个 状态 调用 一 个 子 程序 ， 
则 可 复制 子 程序 ， 对 每 个 副本 使 用 新 的 状态 集合 。 对 于 子 程序 不 同 副本 的 初始 状态 发 出 “调用 ”， 
每 个 副本 都 “返回 ”到 不 同 状态 。 


例 8.8 ”将 设计 TM 来 实现 “乘法 ”函数 。 也 就 是 说 ， 设 计 的 TM 将 从 带 上 的 0"10"1 开 始 ， 将 
以 让 0 在 带 上 结束 。 这 种 策略 的 要 点 是 : 
1. 一般 情 况 下 ， 对 于 某 个 k， 带 上 将 有 形 如 010"10 的 非 空格 串 。 
2. 在 一 个 基本 步骤 中 ， 把 第 一 组 中 一 个 0 改 成 B， 并 向 最 后 一 组 加 入 n 个 0"， 得 出 形 如 O7110"10&+ Dn 
的 串 。 
3. 结 果 是 把 n 个 0 的 组 向 末尾 复制 了 7m 次 ， 每 次 把 第 一 组 中 一 个 0 改 成 B。 当 第 一 组 中 0 全 部 改 
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成 空格 时 ， 最 后 一 组 中 将 有 mn 个 0。 
4. 最 后 步骤 是 把 开头 的 10"1 改 成 空格 ， 然 后 完成 所 有 操作 。 
这 个 算法 的 核心 是 称 为 Copy 的 子 程序 。 这 个 子 程序 帮助 实现 上 述 步骤 (2)， 把 ?个 0 的 块 复制 
到 末尾 。 更 准确 地 说 ，Copy 把 形 如 0"*1q10"10W” 的 ID 变 成 ID 0" 1930"10"。 图 8-14 说 明子 程序 
copy 的 转移 。 这 个 子 程序 用 X 标 记 第 一 个 0， 在 状态 9 中 向 右 移动 直到 找到 空格 为 正 ， 把 0 复制 
到 这 里 ， 在 状态 q; 中 向 左 移 动 来 寻找 标记 X。Copy 重 复 这 个 循环 直到 在 状态 qi 中 找到 1 而 不 是 0。 
在 这 个 时 刻 ，Copy 用 状态 qs 把 X 改 回 到 0， 并 在 状态 4: 中 结束 。 
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图 8-14 子 程序 Copy 
完整 的 乘法 图 灵机 在 状态 qo 中 开始 。 图 灵机 做 的 第 一 件 事 情 是 在 几 步 之 内 从 ID go0"10" 进入 
ID 0”!1410"。 在 图 8-15 子 程序 调用 左边 的 部 分 中 显示 所 需要 的 转移 ， 这 些 转移 只 涉及 状态 do 
和 和 ge。 
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0/ 有 一 
图 8-15 完整 的 乘法 程序 使 用 子 程序 copy 


“然后 ， 在 图 8-15 子 程序 调用 的 右边 看 到 状态 q; 到 qiz。 状态 q7, qs, qs 的 目标 是 在 Copy 刚 刚 复制 ”[342 
了 一 块 0 并 处 在 ID 0"*1gs0"10% 之 后 接 过 控制 。 最 终 ， 这 些 状 态 到 达 状 态 qo0™*10"10mw。 在 这 个 时 
刻 ,， 循环 再 次 开始 ， 又 调用 Copy 来 复制 n 个 0 的 块 。 
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例外 的 情况 是 在 状态 qs 中 TM 可 能 发 现 所 有 0 都 已 经 改 成 空格 〈 即 上 = m)。 在 这 种 情况 下 ， 发 
生 到 达 状 态 qi 的 转移 。 在 状态 qu 的 协助 下 ， 这 个 状态 把 开头 的 10"1 改 成 空格 并 进入 停机 状态 qi2。 
在 这 个 时 刻 ，TM 处 在 ID qi20” 中 ， 其 工作 已 经 完成 。 加 


8.3.4 习题 


! 习题 8.3.1 重新 设计 习题 8.2.2 中 图 灵机 以 利用 在 8.3 节 中 讨论 的 程序 设计 技术 。 

! 习题 8.3.2 在 图 灵机 程序 中 常见 的 操作 是 “平移 ”。 在 理想 情况 下 ， 和 希望 在 当前 带头 位 置 产生 
能 保存 茶 个 字符 的 额外 单元 。 但 不 能 以 这 种 方式 编辑 带 。 更 适当 的 方式 是 ， 需 要 把 当前 带头 位 置 
右边 每 个 单元 内 容 都 向 右 移动 一 个 单元 ， 然 后 设法 返回 到 当前 带头 位 置 。 说 明 如 何 执 行 这 种 操 
作 。 提 示 : 留 下 特殊 符号 来 标记 带头 必须 返回 的 位 置 。 

* 习题 8.3.3 ”设计 子 程序 把 TM 带头 从 当前 位 置 向 右 移动 ， 越 过 所 有 0 直至 到 达 1 或 空格 为 止 ，。 
如 末 当 前 位 置 不 包含 9， 则 TM 应 当 停 机 。 可 以 假设 没有 除了 0, 1, B (空格 ) 以 外 的 带 符 号 。 然 后 ， 
使 用 这 个 子 程序 设计 接受 没有 两 个 连续 1 的 所 有 的 0 和 1 的 串 的 TM。 


8.4 基本 图 灵机 的 扩展 


在 本 市 中 ， 将 要 看 到 与 图 灵机 有 关 并 与 一 直 使 用 的 TM 基本 模型 有 相同 语言 识别 能 力 的 某 些 
计算 机 模型 。 其 中 一 种 模型 (多 带 图 灵机 ) 是 很 重要 的 ， 因 为 与 一 直 研 究 的 单 带 模 型 相 比 ， 更 
容易 看 出 多 带 TM 能 如 何 模拟 真实 计算 机 (或 其 他 类 型 图 灵机 ) 。 就 接受 语言 的 能 力 而 言 ， 额 外 
的 带 并 不 增加 模型 的 能 力 。 

然后 考虑 非 确 定型 图 灵机 ， 即 对 基本 模型 的 扩展 ， 人 允许 非 确 定型 图 灵机 在 给 定 情况 下 选择 
有 穷 多 种 移动 中 的 任意 一 种 。 在 某 些 环境 下 ,这 种 扩展 也 使 得 更 容易 给 图 灵机 进行 “程序 设计 ”, 
但 并 不 增加 基本 模型 的 语言 定义 能 力 。 


8.4.1 多 带 图 灵机 


多 带 TM 如 图 8-16 所 示 。 这 个 装置 具有 有 穷 控 制 (状态 ) ， 以 及 某 个 有 穷 数 目的 带 。 每 个 带 
都 划分 成 单元 ， 每 个 单元 都 包含 有 穷 字 母 表 的 任意 符号 。 同 在 单 带 TM 中 一 样 ， 带 符号 集合 包含 
空格 ， 并 有 所 谓 输入 符号 的 子 集合 ， 空 格 不 属于 输入 符号 。 状 态 集 合 包 含 初始 状态 和 一 些 接受 
状态 。 开 始 时 ， 

1. 输 入 ( 即 输 入 符号 的 有 穷 序 列 ) 放 在 第 一 条 带 上 。 

2. 所 有 审 的 所 有 其 他 单元 都 包含 着 空格 。 

3. 有 穷 控 制 处 在 初始 状态 中 。 

4. 第 一 条 带 的 带头 在 输入 左 端 。 

5. 所 有 其 他 带头 都 在 某 个 任意 单元 中 。 因 为 除 第 一 条 带 之 外 所 有 带 都 完全 是 空格 ， 所 以 开 

始 时 带头 放 在 何 处 是 无 所 谓 的 ， 这些 带 的 任何 单元 “看 起 来 ”都 一 样 。 

多 市 TM 的 移动 依赖 于 状态 和 每 个 带头 扫描 的 符号 。 在 一 步 移动 中 ， 多 带 TM 做 下 列 工 作 ， 

1. 控制 进入 新 状态 ， 新 状态 与 前 一 个 状态 可 能 相同 。 

2. 在 每 个 带 上 ， 在 扫描 的 单元 中 写 新 的 带 符号 。 新 符号 中 的 任何 一 个 与 从 前 在 那里 的 符号 


Js 


都 可 能 相同 。 

3. 每 个 带头 移动 ， 可 能 向 左 、 向 右 或 静止 。 这 些 带 头 独立 移动 ， 所 以 不 同 的 带头 能 在 不 同 

方向 上 移动 ， 某 些 带 头 可 能 根本 不 动 。 

我 们 将 不 给 出 转移 规则 的 形式 化 记号 ， 除 了 现在 选择 L, R, $ 来 表示 方 问 之 外 ， 其 形式 是 单 带 
TMibct- 写 的 直接 推广 。 不 允许 单 币 机 器 带头 保持 静止 ， 所 以 没有 5S 选 项。 读者 应 当 能 够 设想 出 多 
带 TM 格 局 瞬时 描述 的 适当 记号 ， 本 书 将 不 形式 化 地 给 出 这 种 记号 。 类 似 于 单 带 TM， 多 带 图 灵 
机 以 进入 接受 状态 的 方式 来 接受 。 
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图 8-16 多 种 图 灵机 


8.4.2 单 囊 图 灵机 与 多 带 图 灵机 的 等 价 性 


回忆 一 下 ， 递 归 可 枚 举 语言 定义 为 单 带 TM 所 接受 的 语言 。- 的 确 , :多 带 TM 接 受 所 有 递归 可 
枚 举 语 言 ， 因 为 单 带 TM 也 是 多 带 TM。 然 而 ， 有 没有 不 是 递归 可 枚 举 的 而 多 带 TM 却 接受 的 语 
言 ? 回答 是 “ 疫 有 ， 本 通过 说 明 单 带 TM 如 何 模拟 多 带 TM 来 证 明 这 个 事实 。 


定理 8.9 多 带 TM 接 受 的 每 个 语言 都 是 递归 可 枚 举 的 。 

证 明 证 明 如 图 8-17 所 示 。 假 设 k 带 TM M 接 受 语言 上 L。 用 认为 具有 2k 道 的 带 的 单 带 TM N 来 模 
拟 M。 这 些 道中 的 一 半 包 含 W 的 带 ， 这 些 道中 的 另 一 半 每 个 都 只 包含 表示 M 相 应 带头 目前 位 于 何 
处 的 一 个 标记 。 图 8-17 假 设 ¢ = 2。 第 2 道 和 第 4 道 包含 M 的 第 一 条 和 第 二 条 带 的 内 容 ， 道 1 包含 第 
一 条 带 的 带头 位 置 ， 道 3 包含 第 二 条 带 的 带头 位 置 。 

为 了 模拟 M 的 移动 ，N 的 带头 必须 访问 k 个 带头 标记 。 所 以 为 了 不 遗 泼 Y， 在 任何 时 刻 ， 必 须 
记 住 在 N 的 左边 有 多 少 个 带头 标记 ， 这 个 计数 保存 在 N 的 有 穷 控 制 的 分 量 中 。 在 访问 每 个 带头 标 
记 并 在 有 穷 控 制 中 保存 扫描 的 符号 之 后 ，N 就 知道 M 的 每 个 带头 正在 扫描 什么 带 符号 。N 也 知道 
在 N 自 身 的 有 穷 控 制 中 所 保存 的 M 的 状态 。 因 此 ，N 知 道 M 将 做 何 种 移动 。 

现在 访问 N 的 带 上 的 每 个 带头 标记 ， 改 变 表示 MM 相应 带 的 道中 的 符号 ， 必 要 时 向 左 或 向 右 
移动 带头 标记 。 最 后 ，N 改 变 在 自身 的 有 穷 控 制 中 所 记录 的 M 的 状态 。 到 了 这 个 时 刻 ，N 就 模拟 
了 M 的 一 步 移动 。 
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图 8-17 单 带 图 灵机 模拟 两 带 图 灵机 


挑选 那些 记录 M 的 状态 为 M 的 接受 状态 之 一 的 状态 来 作为 N 的 接受 状态 。 因 此 ， 每 当 被 模拟 
的 M 接 受 时 ，N 也 接受 ， 否 则 ，N 不 接受 。 口 






关于 有 穷 性 的 提示 
常见 错误 是 将 在 任何 时 刻 都 是 有 穷 的 值 与 值 的 有 穷 集 合 混淆 。 多 带 合 一 的 构造 可 能 有 
助 于 理解 这 种 差别 。 在 这 个 构造 中 ， 用 带 上 的 道 来 记录 带头 位 置 。 为 什么 不 在 有 穷 控 制 中 
用 整数 保存 这 些 位 置 昵 ?在 没有 仔细 考虑 的 情况 下 ， 可 能 论证 在 n 步 移动 之 后 ，TM 的 带头 


位 置 一 定 在 初始 带头 位 置 周围 4 个 位 置 以 内 ， 所 以 带头 只 需要 保存 不 超过 n 的 整数 。 

问题 是 ， 虽 然 在 任何 时 刻 这 些 位 置 都 是 有 穷 的 ， 但 在 任何 时 刻 可 能 位 置 的 完整 集合 却 
古 无 穷 的 。 如 果 状 态 将 要 表示 任何 带头 位 置 ， 则 状态 必须 有 数据 分 量 取 任意 整数 作为 值 。 
尽管 在 任何 有 穷 时 刻 只 能 用 到 有 穷 多 个 状态 ， 但 这 个 分 量 却 迫 使 状态 集合 是 无 穷 的 。 图 灵 
机 定义 要 求 状态 的 集合 是 有 穷 的 。 因 此 ， 不 允许 在 有 穷 控 制 中 保存 带头 位 置 。 





8.4.3 运行 时 间 与 多 带 合 一 构造 


现在 介绍 稍 后 将 变 得 非常 重要 的 概念 : 图 灵机 的 “时 间 复 杂 度 ”或 “运行 时 间 ”。 说 TM M 
在 输入 w 上 的 运行 时 间 是 M 在 停机 之 前 移动 的 步 数 。 如 果 M 在 w 上 不 停机 ， 则 M 在 w 上 的 运行 时 间 
契 无 穷 的 。TM M 的 时 间 复 杂 度 是 在 所 有 长 度 为 m 的 输入 w 上 取 M 在 w 上 运行 时 间 最 大 值 的 函数 
T(n)。 对 于 不 在 所 有 输入 上 停机 的 图 灵机 ， 对 于 某 些 或 甚至 所 有 n，T(n) 可 能 是 无 穷 的。 但 是 ， 
我 们 将 特别 注意 在 所 有 输入 上 停机 的 TM， 具体 地 说 ， 就 是 具有 多 项 式 时间 复 杂 度 T(n) 的 TM， 
10.1 节 开始 这 种 研究 。 

定理 8.9 的 构造 似乎 是 笨拙 的 。 事 实 上 ， 所 构造 的 单 带 TM 可 能 比 多 带 TM 花 费 更 多 的 运行 时 
间 。 不 过 ， 不 严格 地 说 ， 这 两 个 图 灵机 所 花费 的 时 间 是 相称 的 : 单 带 TM 所 花费 时 间 不 超过 另 一 
个 TM 所 花费 时 间 的 平方 。 "平方 ”不 是 非常 强 的 保证 ， 但 它 确保 了 多 项 式 运行 时 间 。 在 第 10 意 
中 将 看 到 

a) 在 多 项 式 时 间 和 更 高 增长 率 之 间 的 运行 时 间 差 别 ， 的 确 是 能 用 计算 机 解决 的 问题 与 在 实 

践 中 不 可 解决 的 问题 之 间 的 分 界 。 
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b) 尽管 有 深入 研究 ， 但 还 没有 把 解答 许多 问题 所 需要 的 运行 时 间 落 实 到 比 在 某 个 多 项 式 之 
内 更 准确 的 地 步 。 因 此 ， 检 查 解 答 具体 问题 的 运行 时 间 时 ， 是 否 使 用 单 带 或 多 带 TM 来 解 
答 问题 这 个 疑问 并 非 关键 。 

单 带 TM 和 多 带 TM 的 运行 时 间 不 超过 彼此 的 平方 ， 论 证 如 下 。 


定理 8.10 定理 8.9 的 单 带 TM NN 为 模拟 k 带 TM M 的 n 步 移动 而 花费 的 时 间 是 O(n?)。 

证 明 ”在 M 的 n 步 移动 之 后 ， 带 头 标记 不 可 能 相距 超过 2n 个 单元 。 因 此 ， 如 果 NN 从 最 左 标 记 
上 开始 , 则 M 为 找 出 所 有 带头 标记 就 没有 必要 向 右 移动 超过 2n 个 单元 。M 可 以 接着 向 左 移动 一 遍 ， 
改变 所 模拟 的 M 带 的 内 容 ， 根 据 需 要 向 左 或 向 右 移动 带头 标记 。 做 这 些 工作 需要 不 超过 2n 个 向 
左 移动 ， 以 及 至 多 2k 个 移动 ， 以 便 掉 转 方向 并 在 右边 单元 中 写 下 标记 X (在 M 的 带头 向 右 移动 的 
情况 下 )。 

因此 ， 模 拟 前 n 个 移动 之 一 所 需要 的 由 N 所 做 的 移动 数 不 超 过 4n + 2k。 因 为 是 独立 于 所 模拟 
移动 数 的 常数 ， 所 以 这 个 移动 数 是 O(n)。 模 拟 n 个 移动 所 需要 的 移动 数 不 超 过 这 个 数量 的 n 倍 ， 
O(n’)。 型 


8.4.4 非 确定 型 图 灵机 


非 确定 型 图 灵机 (NTM) 与 一 直 研 究 的 确定 型 变 体 的 不 同 之 处 在 于 ，NTM 具 有 转移 函数 6 

使 得 对 于 每 个 状态 9q 和 带 符 号 X，6(q, 加 是 三 元 组 的 集合 

{ (qi, Yi, D1), (gq2, 到 ,Da ,( qr, Yi, D7) } 
其 中 k 是 任意 有 穷 整 数 。NTM 每 步 能 选择 三 元 组 中 任何 一 个 作为 下 一 步 移动 。 不 过 ，NTM 不 能 
从 一 个 三 元 组 中 选择 状态 ， 而 从 另 一 个 三 元 组 中 选择 带 符号 ， 并 从 第 三 个 三 元 组 中 选择 方向 。 

党 不 意外 ，NTM M 所 接受 语言 的 定义 方式 类 似 于 已 经 研究 过 的 诸如 NFA 和 PDA 的 其 他 非 确 
定型 装置 。 也 就 是 说 ， 如 果 存 在 移动 选择 的 任意 序列 ， 从 以 w 为 输入 的 初始 ID 导致 具有 接受 状态 
的 ID， 则 M 接 受 输 入 w。 其 他 不 导致 接受 状态 选择 序列 的 存在 是 无 关 紧 要 的 ， 这 与 NFA 或 PDA 的 
情形 一 样 。 

NTM 不 接受 确定 型 TM ( 即 DTM， 如 需 强调 是 确定 型 的 ) 所 不 接受 的 任何 语言 。 这 个 证 明 
涉及 证 明 对 于 每 个 NTM Mw， 能 构造 DTM Mo 探索 Mv 通过 任何 选择 序列 所 能 到 达 的 ID。 如 果 NMp 
找到 具有 接受 状态 的 DD， 则 Mo 进入 自身 的 接受 状态 。Mo 一 定 是 系统 化 的 ， 把 新 ID 放 在 队列 中 
而 不 是 堆栈 中 ， 使 得 对 于 k= 1,2,…， 在 某 个 有 穷 时 间 之 后 Mo 已 经 模拟 了 Mw 不 超过 k 步 移动 的 所 
有 序列 。 


定理 8.11 如 果 Mw 是 非 确 定型 图 灵机 ， 则 存在 确定 型 图 灵机 Mo 使 得 LM) = L(MD)。 

证 明 Mo 将 设计 成 图 8-18 中 勾画 的 多 带 TM。Mo 的 第 一 条 带 包 含 Mw 的 了 DD 序列 ， 包 括 Mw 的 
状态 。Mw 的 一 个 外 标记 为 “当前 ”ID， 其 后 继 ID 都 处 于 正在 被 探索 的 过 程 中 。 在 图 8-18 中 ， 用 
二 个 X 和 ID 间 的 分 隔 符 来 标记 第 三 个 ID， 分 隔 符 是 *。 当 前 ID 左边 的 所 有 ID 已 经 被 探索 过 了 ， 以 
后 可 忽略 。 
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图 8-18 DTM 模 拟 NTM 


为 了 处 理 当 前 态 ，Mp 做 下 列 工作 : 

1. Mo 检查 当前 ID 的 状态 和 扫描 的 符号 。 对 于 每 种 状态 和 符号 ，Mw 有 什么 移动 选择 的 知识 
已 经 固定 在 Mo 的 有 穷 控 制 中 。 如 果 当 前 ID 中 状态 是 接受 的 ， 则 Mo 接受 并 且 不 再 继续 模 
殷 AMhw。 

2. 但 如 果 这 个 状态 不 是 接受 的 ， 并 且 这 种 带 - 符 号 的 组 合 有 k 种 移动 ， 则 M6 用 第 二 条 带 复制 
这 个 古 ， 然 后 在 带 1 上 在 ID 序列 末尾 把 这 个 ID 复制 5 遍 。 

3. 根据 Mx 具 有 从 当前 卫 的 k 种 移动 选择 的 不 同 选择 ，Mp 修改 这 K 个 中 的 每 一 个 。 

4. Mp 回 到 被 标记 的 当前 ID ， 删 除 标 记 ， 并 把 标记 移动 到 右边 的 下 一 个 ID。 整 个 循环 接着 在 

步骤 (1D) 开 始 重复 。 

仅 当 Mo 发 现 Wx 能 进入 接受 ID 时 Mo 才 接 受 ， 在 这 个 意义 下 ， 模 拟 是 精确 的 ， 这 应 该 是 清楚 
的 。 但 需要 确认 ， 如 果 Mx 在 一 系列 n 个 自身 移动 之 后 进入 接受 ID， 则 Mo 最 终 将 让 这 个 ID 成 为 当 
前 ID 并 将 接受 。 

假设 m 是 Mw 在 任何 格局 中 具有 的 最 大 选择 数 。 于 是 存在 Mw 的 一 个 初始 ID， 在 一 步 移动 之 后 
Mn 能 到 达 至 多 m 种 ID， 在 两 步 移动 之 后 Mn 能 到 达 至 多 m? 种 ID， 依 此 类 推 。 因 此 ， 在 n 步 移动 之 
后 Mw 能 到 达 至 多 1 + m+ m+… +m" 种 ID。 这 个 数字 至 多 是 nm 种 ID，。 

Mo 探索 Mw 的 ID 的 顺序 是 “宽度 优先 ”的 ， 也 就 是 说 ，Mo 探索 所 有 0 步 可 达 的 ID ( 即 初始 
ID)， 然 后 探索 所 有 1 步 可 达 的 ID ， 然 后 探索 所 有 2 步 可 达 的 ID ， 依 此 类 推 。 具 体 地 说 ，Mo 在 考 
虑 只 有 经 过 超过 n 步 移动 才 可 达 的 任何 人 DD 之前， 将 考虑 把 不 超过 n 步 就 可 达 的 所 有 ITD 作为 当前 ID 
并 考虑 其 后 继 ID。 

结果 是 Mo 将 在 所 考虑 的 前 zz 个 ID 中 考虑 到 Mx 的 接受 ID。 只 关心 Mo 在 某 个 有 穷 时 间 之 内 
考虑 这 个 ID， 而 这 个 边界 足以 保证 最 终 考 虑 到 接受 ID。 因 此 ， 如 果 Mi 接受 ， 则 Mp 也 接受 ， 由 
于 我 们 已 经 注意 到 如 果 Mp 接 受 ， 则 这 样 做 只 是 因为 Mw 接受， 所 以 结论 是 LMW) = L(M)。 口 


注意 ， 所 构造 的 确定 型 TM 可 能 要 比 非 确定 型 TM 多 花费 指数 时 间 。 还 不 知道 这 种 指数 减速 
征 否 必要 。 事 实 上 ， 第 10 章 将 研究 这 个 问题 以 及 有 人 发 现 确定 地 模拟 NTM 的 更 好 方法 的 后 果 上 。 
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8.4.5 习题 


习题 8.4.1 ” 非 形 式 化 但 清楚 地 描述 接受 习题 8.2.2 的 每 个 语言 的 多 带 图 灵机 。 堂 试 让 每 个 图 
灵机 在 与 输入 长 度 成 比例 的 时 间 里 运行 。 
习题 8.4.2 这 里 是 非 确 定型 TM M = ({qo, df1， 92}， {0， 1}, {0， B}, 0， go， B, {q2}) 的 转移 函数 : 


010 1 B 
{(go, 1, R)} {(q1,0, R)} 
{(g R), (go, 0, L)} 全 R), (go, 1 二 )} {le R)} 
说 明 从 初始 ID 可 达 的 ID ， 如 果 输 入 是 : 
* a) 01。 
bOITE, 

: 习题 8.4.3 ” 非 形式 化 但 清楚 地 描述 接受 下 列 语言 的 非 确 定型 图 灵机 (如 果 读 者 愿意 ， 可 用 
多 市 图 灵机 )。 尝 试 利用 非 确定 性 来 避免 迁 代 并 在 非 确定 性 意义 下 节省 时 间 。 也 就 是 说 ， 宁 愿 让 
NTM 多 进行 分 支 而 让 每 个 分 支 保持 简短 。 

* a) 所 有 重复 (不 必 是 连续 地 ) 某 个 长 为 100 的 串 的 0 和 1 串 的 语言 。 形 式 化 地 说 ， 这 个 语言 是 

形 如 wxyxz 的 0 和 1 串 的 集合 ， 其 中 bl = 100， 而 w, y, z 是 任意 长 度 的 。 
b) 所 有 对 于 任意 z 形 如 wi#wz#… 加 wm 的 串 的 语言 ， 使 得 每 个 w 是 0 和 1 的 串 ， 并 且 对 于 某 个 j， 
wj 是 二 进 制 整数 j。 
c) 所 有 形 如 (b) 中 串 的 语言 ， 但 对 于 至 少 两 个 / 值 ，w 等 于 二 进 制 的 六 
! 习题 8.4.4 考虑 非 确定 型 图 灵机 
M=({go,q1,q2, 9r}; {0, 1}, {0, 1, B}, 6, qo, B, {gq:}) 
非 形 式 化 但 清楚 地 描述 语言 L(M)， 如 果 6 包 含 下列 规 则 集合 ; 6(go, 0) = {(go, 1, R), (qi, 1, R)}, 
0(qi, 1) = {(q2, 0, L)}; 6(gq;, 1)= {(gqo, 1, R)}; 6(q1, B)= {(g,B, R)}. 
* 习题 8.4.5 ”考虑 其 带 在 两 个 方向 上 都 是 无 穷 的 非 确定 型 TM。 在 某 个 时 刻 ， 除 包含 符号 $ 的 
一 个 单元 之 外 ， 带 完全 是 空格 。 带 头 当 前 是 在 某 个 空格 单元 中 ， 状态 是 gq。 
a) 写 出 使 得 这 个 NTM 进 入 状态 p 并 扫描 $ 的 那些 转移 。 
! b) 假设 这 个 TM 是 确定 型 的 。 如 何 让 这 个 TM 找到 $ 并 进入 状态 p? 
习题 8.4.6 ”设计 下 面 的 2 带 TM 来 接受 所 有 具有 相同 数目 0 和 1 的 串 的 语言 。 第 一 条 带 包含 输 
入 ， 从 左 向 右 扫 描 。 第 二 条 带 用 来 保存 到 目前 为 止 看 到 的 输入 部 分 中 0 超过 1 的 个 数 或 1 超过 0 的 
个 数 。 说 明 状态 、 转 移 和 每 个 状态 的 直观 目的 。 
习题 8.4.7 在 本 题 中 ， 将 用 特殊 的 3 带 TM 来 实现 堆栈 。 
1: 第 一 条 带 将 只 用 于 保存 和 读 输入 。 输 入 字母 表 包 含 符号 1 (这 个 符号 将 解释 为 “弹出 堆 
栈 ) 和 符号 a 和 b (分 别 解释 为 “把 a 压 入 堆栈 ”和 “把 bp 压 入 堆栈 ”)，。 
2. 第 二 条 带 用 来 保存 堆栈 。 
3. 第 三 条 带 是 输出 带 。 每 次 当 符号 从 堆栈 中 弹出 时 ， 必 须 写 在 输出 带 上 ， 跟 在 前 面 写 下 的 
所 有 符号 后 面 。 
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要 求 图 灵机 从 空 栈 开 始 并 实现 从 左 向 右 读 输入 所 规定 的 压 入 和 弹出 操作 序列 。 如 果 输 入 导致 TM 
从 空 栈 弹 出 ， 则 TM 必须 在 特殊 的 错误 状态 q。 中 停机 。 如 果 整 个 输入 在 最 后 让 堆栈 为 空 ， 则 通过 
进入 终结 状态 gq 来 接受 输入 。 非 形式 化 但 清楚 地 描述 这 个 TM 的 转移 函数 。 另 外 ， 给 出 使 用 每 个 
状态 的 目的 的 摘要 。 
习题 8.4.8 在 图 8-17 中 看 到 了 单 带 TM 模 拟 k 带 TM 的 一 般 模拟 的 例子 。 
* a) 假设 用 这 种 技术 来 模拟 具有 7 个 符号 带 字母 表 的 5 带 TM。 单 带 TM 将 有 多 少 个 带 符号 ? 
* b) 用 1 条 带 模拟 k 条 带 的 另 一 种 方法 是 用 第 k + 1 道 保存 所 有 条 带 的 带头 位 置 ， 以 明显 的 方式 
用 前 k 道 来 模拟 k 条 带 。 注 意 ， 在 第 k + 1 道中 必须 要 仔细 区 分 带头 ， 并 人 允许 两 个 或 多 个 带 
头 在 同一 单元 中 的 可 能 性 。 这 种 方法 是 否 减 少 单 带 TM 需要 的 带 符号 数 ? 
c) 用 1 条 带 模 拟 k 条 带 的 另 一 种 方法 是 完全 避免 保存 带头 位 置 。 更 适当 地 ， 只 用 第 k + 1 道 标 
记 带 的 一 个 单元 。 在 所 有 时 刻 里 ， 把 每 条 被 模拟 的 带 放 在 这 条 带 的 道中 ， 使 得 带头 在 标 
记 的 单元 中 。 如 果 k 带 TM 移动 带 i 的 带头 ， 则 执行 模拟 的 单 带 TM 把 第 i 道 的 整个 非 空 格 内 
容 向 相反 的 方向 滑动 一 个 单元 ， 使 得 标记 的 单元 继续 包含 带 TM 的 第 i 个 带头 扫描 的 单元 。 
这 种 方法 是 否 有 助 于 减少 单 带 TM 的 带 符号 数 ? 与 所 讨论 的 其 他 方法 相 比 ， 这 种 方法 是 否 
存在 缺点 ? 

! 习题 8.4.9 Kk 头 TM 具有 k 个 带头 读 一 条 带 的 单元 。 这 个 TM 的 移动 依赖 于 状态 和 每 个 带头 扫 
描 的 符号 。 在 一 步 移动 中 ，TM 可 以 改变 状态 ， 在 每 个 带头 扫描 的 单元 中 写 下 新 符号 ， 把 每 个 带 
头 向 右 移 动 、 向 左 移动 或 保持 静止 。 多 个 带头 可 能 扫描 同一 个 单元 ， 所 以 假设 带头 从 1 到 k 编 号 ， 
扫描 一 个 单元 的 最 大 号 数 带 头 写 下 的 符号 是 实际 写 在 这 个 单元 中 的 符号 。 证 明 : k 头 图 灵机 与 普 
通 TM 接 受 的 语言 是 一 样 的 。 

!! 习题 8.4.10 ”二 维 图 灵机 具有 通常 的 有 穷 控 制 但 带 却 是 在 所 有 方向 上 都 是 无 穷 的 二 维 单元 网 
格 。 和 往常 一 样 ， 输 入 放 在 网 格 的 一 行 上 ， 带 头 在 输入 的 左 端 ， 控 制 是 在 初始 状态 中 。 同 样 和 
往常 一 样 ， 以 进入 终结 状态 方式 来 接受 。 证 明 : 二 维 图 灵机 与 普通 TM 接受 的 语言 是 二 样 的 。 


8.5 _ 受 限制 的 图 灵机 


已 经 看 到 图 灵机 表面 上 的 推广 不 增加 任何 语言 识别 能 力 。 现 在 ， 将 考虑 TM 外 观 上 的 限制 的 一 
些 例子 ， 这 些 限制 也 给 出 恰好 相同 的 语言 识别 能 力 。 第 一 个 限制 是 小 而 有 用 的 (在 稍 后 看 到 的 许 
多 构造 中 ) : 把 双向 无 穷 的 TM 带 改换 成 只 有 在 右 方才 是 无 穷 的 带 。 还 禁止 这 种 受 限制 的 TM 显 示 
空格 作为 替换 带 符号 。 这 些 限制 的 价值 在 于 可 以 假设 ID 只 包含 非 空格 符号 ， 并 总 是 从 输入 的 左 端 
开始 。 

然后 探索 那些 作为 推广 的 下 推 自动 机 的 某 些 种 类 的 多 带 图 灵机 。 首 先 ， 限 制 TM 的 带 行为 
类 似 堆 栈 。 然 后 ， 进 一 步 限制 带 是 “计数 器 "， 也 就 是 说 ， 带 只 能 表示 一 个 整数 ，TM 只 能 区 分 
0 计数 与 任何 非 零 计数 。 这 种 讨论 的 影响 是 ， 存 在 一 些 非常 简单 类 型 的 自动 机 具有 任何 计算 机 
的 完全 能 力 。 而 且 ， 关 于 图 灵机 的 不 可 判定 问题 (在 第 9 章 看 到 ) 也 适用 于 这 些 简 单机 器 。 


8.5.1 具有 半 无 穷 带 的 图 灵机 
允许 图 灵机 带头 从 初始 位 置 向 左 或 向 右 移 动 ， 但 真正 必要 的 只 是 允许 TM 带 头 在 初始 带头 位 
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置 及 其 右边 范围 内 移动 。 事 实 上 ， 可 以 假设 带 是 半 无 穷 的 ， 也 就 是 说 ， 在 初始 带头 位 置 的 左边 
设 有 任何 单元 。 在 下 一 个 定理 中 ， 将 给 出 构造 说 明 具 有 半 无 穷 带 的 TM 能 模拟 具有 双向 无 穷 带 
(类 似 本 书 原来 的 TM 模型 ) 的 TM。 

这 个 构造 背后 的 技巧 是 在 半 无 穷 带 上 使 用 两 个 道 。 上 道 表示 原来 TM 在 初始 带头 位 置 及 其 右 
边 的 单元 。 下 道 以 相反 顺序 表示 初始 位 置 左边 的 位 置 。 准 确 的 安排 如 图 8-19 所 示 。 上 道 表示 单 
元 Xo, 和 X,，…, Xo 是 带头 初始 位 置 ，X1, X; 等 都 是 初始 位 置 右 边 的 
单元 。 单 元 X-1, X-; 等 表示 初始 位 置 左边 的 单元 。 注 意 下 道 在 攻 、 





最 左 单元 中 的 *， 这 个 符号 的 作用 是 作为 端 标记 和 防止 半 无 穷 | * |*-1|*-2| … 
TM 的 带头 无 意 中 越 过 带 的 左 端 。 图 8-19 半 无 穷 带 能 模拟 
将 在 图 灵机 上 做 出 另 一 个 限制 ,永远 不 写 空格 。 这 个 简 双 同 无 穷 带 


单 限制 连同 带 只 是 半 无 穷 的 限制 一 起 意味 着 ; 带 在 所 有 时 刻 都 是 非 空 格 符号 的 前 经， 后 面 跟着 
无 穷 的 空格 。 而 且 ， 非 空格 的 序列 总 是 从 初始 带头 位 置 开始 。 在 定理 9.19 中 和 定理 10.9 中 将 看 到 ， 
假设 ID 具有 这 种 形式 是 多 么 有 用 。 


定理 8.12 具有 下 列 限 制 的 TM Mi 接受 TM M; 所 接受 的 每 个 语言 : 
1.M 的 带头 永远 不 移动 到 初始 位 置 左边 。 
2. Mi 水 远 不 写 空格 。 
证 明 条 件 (2) 是 非常 容易 的 。 产 生 不 是 空格 但 作用 像 空 格 的 新 的 带 符号 B'。 也 就 是 说 ; 
3a) 如 采 412 有 规则 6(qa,20 = (p,B,D)， 则 把 这 条 规则 改 成 6&(q,X) = (p,B', DD)， 
b) 然后 ， 对 于 每 个 状态 9g， 令 6(q, B') 与 5&(q,B) 一 样 。 
条 件 (1) 是 需要 额外 努力 的 。 设 
M;=( QO;, 2,T,o0,,g;,B,F;) 
是 按 上 述 修 改过 的 TM M;， 所 以 Ms 永远 不 写 空格 。 构 造 
Mi=(Qi, 2 x{B},T,6,go,[B,B],F') 


其 中 : 

Q1: Mi 的 状态 是 {qo, 91}U(Q; x {U,L})。 也 就 是 说 ，Mi 的 状态 是 初始 状态 qo 或 另 一 个 状态 gq， 
以 及 M2; 的 状态 加 上 是 U 或 L (上 或 下 ) 的 第 二 个 数据 分 量 。 第 二 个 分 量 说 明 M, 究 竟 正 在 
扫描 上 道 还 是 下 道 (如 图 8-19 所 示 )。 换 名 话说 ，U 意 味 着 MM 带头 是 在 初始 位 置 本 身 或 
右边 , L 意 味 着 带头 是 在 初始 位 置 左 边 。 

五 ; M1 的 带 符 号 是 [符号 的 所 有 有 序 对 ， 即 攻 x T。M1 的 输入 符号 是 第 一 分 量 为 M, 的 输入 
符号 且 第 二 分 量 为 空格 的 有 序 对 ， 即 形 如 [a, B] 的 有 序 对 ，a 属 于 。Mi 的 空格 则 在 两 
个 分 量 中 都 有 空格 。 另 外 ， 对 于 蕊 中 每 个 符号 X， 在 工 中 存在 有 序 对 [X, *]。 这 里 ，* 是 
不 属于 攻 的 新 符号 ，* 的 作用 是 标记 Mi 带 的 左 端 。 

6; Mi 的 转移 如 下 : 

1) 对 于 任意 a 属于 区 ，61(qo, [a, B]) = (qu [a, *], R)。M1 的 第 一 步 移动 把 * 标 记 写 在 最 左 单 
元 的 下 道 。 状 态 成 为 9,， 带 头 向 右 移动 ， 因 为 带头 不 能 向 左 移动 或 保持 不 动 。 
2) 对 于 任意 X 属 于 T，61(q1, [X, 8]) = ([q2, 四 , [X, B], L)。 在 状态 qi 中 ， Mi 建立 M2; 的 初 
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始 条 件 ， 把 带头 返回 初始 位 置 ， 把 状态 改 成 [q2, U] 〈 即 M2z 的 初始 状态 ) ， 把 注意 力 
集中 在 M1 的 上 道 。 
3) 如 采 人 %(q,X) = (p,Y,D)， 则 对 于 每 个 Z 属 于 七: 
(a) oi([g, UJ, [X, 2]) = ([p, UJ[Y, Z], D) 并 有 8 
(b) 61([q, 如 [Z, XX]) = ([p; 二 , [2Z, 如 , D)， 其 中 D 是 与 D 相 反 的 方向 ， 也 就 是 说 ， 如 果 
D=R 则 D =LK， 如 果 D =L 则 D =R。 如 果 M/ 不 在 最 左 单元 ， 则 Mi 在 适当 的 道中 
模拟 M，,， 如 果 状 态 的 第 二 分 量 是 UV， 则 这 个 道 是 上 道 ， 如 果 第 二 分 量 是 FL， 则 是 
下 道 。 但 是 注意 ， 当 在 下 道 工 作 时 ,Mi 与 M2; 向 相反 方向 移动 。 这 种 选择 是 有 意义 
的 ， 因 为 已 经 沿 着 Mi 带 的 下 道 以 相反 方向 折 秋 了 M2 带 的 左边 一 半 ，。 
4) 如 采 5(q,X) = (p,Y,R)， 则 
354 | oi([q, Ll, [X, *]) = 6([g, U], [X, *]) = ([p, U], [Y, *], R) 
这 个 规则 适用 于 如 何 处 理 左 端 标 记 * 的 一 种 情形 。 如 果 M; 从 初始 位 置 向 右 移 动 ， 则 
无 论 M; 先 前 是 否 已 经 到 过 这 个 位 置 的 左边 或 右边 (反映 在 Mi 状态 的 第 二 分 量 可 能 是 
[或 0 的 事实 中 )，Mi 都 必须 向 右 移 动 并 注意 上 道 。 也 就 是 说 ，MIi 下 一 步 将 在 图 8-19 
中 用 Xi 所 表示 的 位 置 。 
5) 如 采 2(q, 六 =D, 了 万， 则 
oi([q, L], [X,*]) = 61([q, UJ, [X, *]) = ([p, 1], [Y, *], R) 
这 个 规则 类 似 于 前 一 条 规则 ， 但 适用 于 1 从 初始 位 置 向 天 移动 的 情形 ，J7 必须 从 站 
标记 向 右 移 动 ， 但 现在 注意 的 是 下 道 ， 即 图 8-19 中 筷 ,所 表示 的 单元 。 
i; 接受 状态 Fl 是 Fx {U, 工 } 中 第 一 分 量 为 Ms 接受 状态 的 那些 Mi 状态 。 在 Mi 接受 时 ， 其 注 
意 力 可 以 集中 在 上 道 或 下 道 。 
现在 本 质 上 已 经 完成 了 这 个 定理 的 证 明 。 如 果 读 者 取出 下 道 、 反 转 、 把 上 道 接 在 后 面 ， 则 
通过 对 M2; 的 移动 步 数 进行 归纳 ， 就 可 以 观察 到 M1 将 在 自身 带 上 模拟 M2 的 ID。 另 外 注意 ， 恰 好 当 
M2 进入 接受 状态 之 一 时 M1 才 接 受 。 因 此 ，L(M1) = L(M)。 加 


8.5.2 多 堆栈 机 器 


现在 考虑 基于 下 推 自动 机 的 推广 的 几 种 计算 模型 。 首 先 ， 考 虑 当 给 PDA 多 个 堆栈 时 会 发 生 
什么 。 从 例 8.7 已 经 知道 图 灵机 能 接受 任何 只 有 一 个 堆栈 的 PDA 所 不 接受 的 语言 。 事 实 是， 如 果 
给 PDA 两 个 堆栈 ， 则 PDA 能 接受 TM 能 接受 的 任何 语言 。 
然后 ， 将 考虑 所 谓 “ 计 数 器 机 器 ”的 机 器 类 。 这 些 机 器 的 能 力 只 限于 保存 有 穷 多 个 整数 
(“计数 器 ”)， 并 根据 是 否 有 任何 计数 器 当前 为 0 来 进行 不 同 移动 。 计 数 器 机 器 只 能 从 计数 器 加 1 
或 碱 1， 而 不 能 区 分 两 个 不 同 的 非 零 计数 。 实 际 上 ， 计 数 器 类 似 于 只 能 放 进 两 种 符号 的 堆栈 ， 只 
能 在 堆栈 底 出 现 的 栈 底 标记 ， 以 及 可 从 堆栈 中 弹出 和 压 和 的 另 一 种 符号 。 
我 们 将 不 给 出 对 多 堆栈 机 器 的 形式 化 处 理 ， 但 思想 如 图 8-20 所 示 。 礁 栈 机 器 是 带 有 k 个 堆栈 
的 确定 型 PDA。 类 似 于 PDA 的 做 法 ，k 堆 栈 机 器 从 输入 源 获得 输入 ， 而 不 是 像 TM 那 样 把 输入 放 
在 带 上 或 堆栈 中 。 多 堆栈 机 器 带 有 有 穷 控 制 ， 有 穷 控 制 是 有 穷 多 个 状态 中 的 一 个 。 多 堆栈 机 器 
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具有 有 穷 的 堆栈 字母 表 ， 所 有 堆栈 都 使 用 这 个 字母 表 。 多 堆栈 机 器 的 一 步 移动 是 基于 : 
1. 有 穷 控 制 状态 。 
2. 所 读 输入 符号 ; 这 个 符号 是 从 有 穷 的 输入 字母 表 
中 选择 的 。 作 为 另 一 种 选择 ， 多 堆栈 机 器 能 使 用 
5 输入 来 进行 移动 ， 但 为 了 让 机 器 是 确定 型 的 ， 
在 任何 情况 下 都 不 能 同时 存在 上 移动 选择 和 非 e 移 
动 选 择 。 
3. 每 个 堆栈 中 栈 顶 符号 。 
在 一 步 移动 中 ， 多 堆栈 机 器 能 : 
a) 变 成 新 状态 。 
b) 把 每 个 堆栈 的 栈 顶 符号 替换 成 零 个 或 多 个 堆栈 图 8-20 带 有 三 个 堆栈 的 机 
符号 的 串 。 每 个 堆栈 可 能 有 (通常 是 ) 不 同 的 替换 串 。 
因此 ，K 堆 栈 机 器 的 典型 的 转移 规则 似乎 像 是 : 
0(q,a, Xi1, X23, ,Xi )=(p, 7, ,Ye) 
这 个 规则 的 解释 是 : 在 状态 4 中， 对 于 i = 1, 2, … ,k，X 在 第 i 个 堆栈 的 顶端 ， 机 器 能 从 输入 中 消 
耗 a (输入 符号 或 e) ， 到 达 状 态 p， 对 于 每 个 i =1, 2, …,k， 把 第 i 个 堆栈 的 顶端 的 X 换 成 申 y;。 多 
堆栈 机 器 以 进入 终结 状态 方式 来 接受 。 
增加 一 种 能 力 ， 以 简化 这 种 确定 型 机 器 对 输入 的 处 理 : 假设 有 一 个 特殊 符号 $， 称 为 末端 符 
号 ， 这 个 符号 只 出 现在 输入 末尾 并 且 不 属于 输入 。 示 端 符号 的 出 现 ， 允 许 获 知 何 时 已 经 读 完了 
所 有 有 效 的 输入 。 在 下 一 个 定理 中 将 看 到 ， 末 端 符号 让 多 堆栈 机 器 容易 模拟 图 灵机 。 注 音 ， 第 
规 图 灵机 不 需要 末端 符号 ， 因 为 第 一 个 空格 就 起 到 标记 输入 末端 的 作用 。 


定理 8.13 如 果 图 灵机 接受 语言 L， 则 双 堆 栈 机 器 接受 L。 
证 明 ”本质 思想 是 ， 两 个 堆栈 可 以 模拟 一 条 图 灵机 带 ， 一 个 堆栈 保存 带头 左边 的 内 容 ， 另 
一 个 堆栈 保存 带头 右边 的 内 容 ， 但 都 不 包含 最 左边 和 最 右边 非 空格 以 外 的 无 穷 空 格 串 。 更 详细 
地 说 ， 对 于 某 个 ( 单 带 ) TM M， 设 L 是 LM)。 双 堆栈 机 器 S 将 做 下 列 工作 : 
1.5 从 每 个 堆栈 中 的 一 个 栈 底 标记 开始 。 这 个 标记 可 以 是 堆栈 的 初始 符号 ， 并 且 不 得 在 堆栈 
中 别处 出 现 。 在 下 面 的 叙述 中 ， 当 堆栈 只 包含 栈 底 标记 时 ， 将 说 “堆栈 是 空 的 ” 
2. 假 设 w$ 是 5 的 输入 。5 把 w 复 制 到 第 一 个 堆栈 中 ， 当 读 到 输入 的 末端 标记 时 ， 就 停止 复制 。 
3.3 从 第 一 个 堆栈 中 依次 弹出 每 个 符号 ， 并 把 这 些 符 号 压 人 第 二 个 堆栈 中 。 现 在 ， 第 一 个 堆 
栈 是 空 的 ， 第 二 个 堆栈 包含 w，w 的 左 端 在 顶 上 。 
4.5 进 入 (被 模拟 的 ) M 的 初始 状态 。5S 让 第 一 个 堆栈 为 空 ， 表 示 M 在 带头 扫描 的 单元 的 左边 
除了 空格 之 外 没有 任何 内 容 的 事实 。5 让 第 二 个 堆栈 包含 w， 表 示 w 出 现在 M 带 头 扫 描 的 单 
元 及 其 右边 的 事实 。 
5.4 模 拟 M 的 移动 如 下 。 
(a) 5 知道 M 的 状态 (比方 说 q)， 因 为 在 本 身 的 有 穷 控 制 中 模拟 M 的 状态 。 
(b) 5 知道 M 的 带头 扫描 的 符号 X; 这 个 符号 是 5 第 二 个 堆栈 的 栈 顶 。 例 外 情况 是 ， 如 果 第 
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二 个 堆栈 只 有 栈 底 标 记 ， 则 MM 刚刚 移动 到 一 个 空格 上 ;5 把 M 扫 描 的 符号 解释 成 空格 。 
(c) 因此 ，5 知 道 M 的 下 一 步 移动 。 
(d) 把 M 的 下 一 个 状态 记录 在 S 的 有 穷 控 制 的 分 量 中 ， 取 代 前 一 个 状态 。 
(e) 如 果 M 把 X 换 成 Y 并 问 左 移动 ， 则 5S 把 Y 压 入 第 一 个 堆栈 ， 表 示 7Y 现 在 是 在 MM 带头 左边 的 
357 事实 。 从 5 的 第 二 个 堆栈 弹出 X。 但 是 ， 有 两 种 例外 情况 : 
i. 如 果 第 二 个 堆栈 中 只 有 栈 底 标记 (因此 ，X 是 空格 )， 则 第 二 个 堆栈 不 改变 ，M 需 要 
器 右 移动 到 另 一 个 空格 上 。 
ii. 如 果 了 是 空格 ， 且 第 一 个 堆栈 是 空 的 ， 则 这 个 堆栈 保持 为 空 。 因 为 在 MM 的 带头 左边 
还 是 只 有 空格 。 
(f) 如 果 M 把 X 换 成 Y 并 向 左 移动 ， 则 5 弹出 第 一 个 堆栈 的 栈 顶 (如 Z)， 然 后 在 第 二 个 堆栈 
中 把 X 换 成 ZY。 这 个 改变 反映 出 过 去 在 带头 左边 的 一 个 位 置 现在 是 带头 所 在 的 事实 。 
例外 情况 是 ， 如 果 Z 是 栈 底 标记 ， 则 MM 必须 在 第 二 个 堆栈 中 压 入 BY， 并 且 不 在 第 一 个 


堆栈 中 弹出 。 
6. 如 采 M 的 新 状态 是 接受 的 ， 则 5 接受 。 否 则 ，5 就 以 同样 的 方式 来 模拟 M 的 另外 一 步 移 
动 。 口 
8.5.3 计数 器 机 器 


可 用 下 列 两 种 方式 之 一 来 考虑 计数 器 机 器 : 
1. 计数器 机 器 具有 与 多 堆栈 机 器 (图 8-20) 相同 的 结构 ， 只 是 代替 每 个 堆栈 的 是 计数 器 。 
计数 器 包含 任意 非 负 整数 ， 但 只 能 区 分 零 计 数 器 与 非 零 计 数 器 。 也 就 是 说 ， 计 数 器 机 器 
的 移动 依赖 于 状态 、 输入 符号 以 及 哪些 计数 器 为 零 (如 果 有 计数 器 为 零 的 话 )。 在 一 步 移 
动 中 ， 计 数 器 机 器 可 以 : 
(a) 改变 状态 。 
(b) 独立 地 从 任何 一 个 计数 器 中 加 1 或 减 1。 但 不 允许 计数 器 变 成 负 的 ， 所 以 不 能 从 目前 为 
0 的 计数 器 中 减 1。 
.也 可 认为 计数 器 机 器 是 受 限 制 的 多 堆栈 机 器 。 这 些 限制 如 下 : 
(a) 只 有 两 种 堆栈 符号 ， 把 两 种 符号 称 为 Z 〈 栈 底 标 记 ) 和 X。 
(b) 开始 时 Zo 是 在 每 个 堆栈 中 。 
(c) 只 能 把 Zo 换 成 形 如 系 Zo 的 串 ， 对 于 某 个 ;>0。 
(d) 只 能 把 X 换 成 形 如 XY 的 串 ， 对 于 某 个 i 二 0。 也 就 是 说 ， 如 只 能 出 现在 每 个 堆栈 的 栈 底 ， 
358 所 有 其 他 的 堆栈 符号 (如果 有 的 话 ) 都 是 X。 
对 于 计数 器 机 器 将 采用 定义 (1)， 但 两 个 定义 显然 定义 相同 能 力 的 机 器 。 因 为 堆栈 XiZo 等 于 
计数 i。 在 定义 (2) 中 ， 我 们 能 从 其 他 计数 中 区 分 出 计数 0， 因 为 对 于 计数 0 我 们 在 堆栈 顶端 看 到 即 ， 
否则 看 到 X。 但 不 能 区 分 两 个 正 的 计数 ， 因 为 在 堆栈 顶端 都 是 X。 


8.5.4 计数 器 机 器 的 能 力 
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关于 计数 器 机 器 接受 的 语言 ， 有 几 个 虽然 明显 但 值得 陈述 的 事实 : 


OO 


。 计 数 器 机 器 接受 的 每 个 语言 都 是 递归 可 枚 举 的 。 因 为 计数 器 机 器 是 堆栈 机 器 的 特殊 情形 ， 

堆栈 机 器 是 多 带 图 灵机 的 特殊 情形 ， 根 据 定理 8.9， 多 带 图 灵机 只 接受 递归 可 枚 举 语言 。 

“ 单 计 数 器 机 器 接受 的 每 个 语言 都 是 CFL。 注 意 从 (2) 的 观点 来 看 ， 计 数 器 是 堆栈 ， 所 以 单 计 

数 器 机 器 是 单 堆栈 机 器 〈 即 PDA) 的 特殊 情形 。 事 实 上 ， 确 定型 PDA 接 受 单 计数 右 机 怖 的 

语言 ， 但 证 明 复杂 得 令 人 吃惊 。 证 明 中 的 困难 来 自 多 堆栈 机 器 和 计数 右 机 器 都 在 输入 末端 

具有 末端 标记 $ 的 事实 。 非 确定 型 PDA 能 猜测 到 已 经 看 到 最 后 一 个 输入 符号 并 将 要 看 到 $， 

因此 ， 不 市 末端 标记 的 非 确定 型 PDA 显 然 能 模拟 带 有 未 端 标记 的 DPDA。 但 是 ， 困 难 的 证 

明 (将 不 去 尝试 ) 是 证 明 不 带 末 端 标记 的 PPDA 能 模拟 带 有 末端 标记 的 DPDA。 

关于 计数 器 机 器 令 人 吃惊 的 结果 是 两 个 计数 器 就 足以 模拟 一 个 图 灵机 ， 因 此 就 足以 接受 任 
何 递归 可 枚 举 语 言 。 现 在 讨论 的 正 是 这 个 结果 ， 首 先 证 明 三 个 计数 器 是 足够 的 ， 然 后 用 两 个 计 
数 颖 来 模拟 三 个 计数 器 。 


定理 8.14 3 计数 器 机 器 接受 每 个 递归 可 枚 举 语言 。 

证 明 从 定理 8.13 开 始 ， 该 定理 说 双 堆 栈 机 器 接受 每 个 递归 可 枚 举 语 言 。 于 是 需要 证 明 如 何 
用 计数 大 模拟 堆栈 。 假 设 堆栈 机 器 使 用 r 一 1 个 带 符号 。 可 认为 这 些 符 号 是 从 1 到 一 1 的 数字 ， 并 
认为 堆栈 XiX2…X 和 是" 进 制 整数 。 也 就 是 说 ， 把 这 个 堆栈 (堆栈 顶端 照常 是 在 左 端 ) 表示 成 整数 
Xn1m + Xnir 2 十 … + Xor + Xi 

用 两 个 计数 器 保存 分 别 表 示 两 个 堆栈 的 整数 。 用 第 三 个 计数 器 调节 另外 两 个 计数 器 。 具 体 
地 说 ， 当 把 计数 器 除 以 或 乘 以 r 时 ， 就 需要 第 三 个 计数 器 。 

堆栈 上 的 操作 可 分 成 三 种 : 弹出 栈 顶 符号 ， 改 变 栈 顶 符号 ， 压 入 符号 到 堆栈 。 双 堆栈 机 器 
的 一 步 移动 可 能 涉及 这 些 操 作 中 的 几 种 ; 具体 地 说 ， 把 堆栈 的 栈 顶 符 号 X 换 成 符号 串 ， 这 个 移动 
就 必须 分 解 成 检 换 X， 然 后 压 入 额外 符号 到 堆栈 。 在 表示 成 计数 i 的 堆栈 上 执行 这 些 操作 如 下 。 
注意 ， 可 能 使 用 多 堆栈 机 器 的 有 穷 控制 来 完成 需要 计数 不 超过 7 的 每 种 操作 。 

1. 为 了 从 堆栈 中 弹出 ， 必 须 把 i 换 成 iir， 抛 弃 任 何 余数 ， 余 数 是 X\。 开 始 时 ， 第 三 个 计数 器 
契 0， 反 复 把 计数 碱 * 并 把 第 三 个 计数 器 加 1。 当 起 初 保存 ;的 计数 器 等 于 0 时 停止 。 然 后 ， 
反复 把 原来 的 计数 器 加 1 并 把 第 三 个 计数 器 减 1， 直 到 第 三 个 计数 器 再 次 为 0。 在 这 个 时 刻 ， 
过 去 保存 i 的 计数 器 保存 i/r。 

2. 为 了 把 计数 i 所 表示 堆栈 顶 上 的 X 换 成 Y， 就 给 i 增 或 减少 量 的 值 ， 肯 定 不 超过 +r。 如 果 Y>X 
(作为 数字 )， 就 给 访 | 上 7 一 XX， 如 果 Y<X， 就 给 诚 去 X 一 了 。 

3. 为 了 把 X 压 入 到 起 初 保存 i 的 堆栈 上 ， 需 要 把 济 成 ir + X。 首 先 乘 以 r。 为 了 这 样 做 ， 反 复 
把 计数 i 办 I1 并 把 第 三 个 计数 器 (总 是 从 0 开始 ) 加 r。 当 原来 的 计数 器 变 成 O 时 在 第 三 个 计 
数 器 中 有 rr。 像 在 第 (1) 项 中 做 过 的 那样 ， 把 第 三 个 计数 器 复制 到 原来 的 计数 器 并 让 第 三 
个 计数 器 再 次 为 0。 最 后 ， 把 原来 的 计数 器 加 上 X。 

为 了 完成 这 个 构造 ， 必 须 初始 化 计数 器 以 便 在 初始 条 件 下 模拟 堆栈 ， 初 始 条 件 是 : 只 保存 

双 堆 栈 机 避 的 初始 符号 。 通 过 把 涉及 的 两 个 计数 器 加 上 某 个 小 整数 (初始 符号 对 应 的 从 1 到 7 一 1 
的 任何 一 个 整数 ) 来 完成 这 个 步骤 。 口 


定理 8.15 双 计数 器 机 器 接受 每 个 递归 可 娄 举 语言 ， 


OR 


证 明 “有 了 前 面 这 个 定理 ， 只 需要 证 明 如 何 用 两 个 计数 器 来 模拟 三 个 计数 器 。 思想 是 把 这 
三 个 计数 器 (比方 说 i, j,k) 表示 成 单独 一 个 整数 。 选 择 的 整数 是 m = 23S*。 一 个 计数 器 将 保存 
这 个 数字 ， 用 另 一 个 来 帮助 把 m 乘 以 或 除 以 前 三 个 素数 2,3, 5 之 一 。 为 了 模拟 3 计数 器 机 器 ， 需 要 
执行 下 列 操作 : 

1 把 i, 7 和 (或) k 分 别 加 1。 要 把 i 加 1， 就 把 m 乘 以 2。 在 定理 8.14 的 证 明 中 已 经 看 到 如 何 利 

360 用 第 二 个 计数 器 把 计数 乘 以 任意 常数 r。 同 样 地 ， 通 过 把 m 乘 以 3 来 把 7 加 1， 把 m 乘 以 5 来 
把 k 加 1。 

2. 区 分 i, Hk 中 哪个 为 0 (如 果 有 的 话 ) 。 为 了 辨认 是 否 = 0， 必 须 确定 m 是 否 被 2 整除 。 把 m 
复制 到 第 二 个 计数 器 中 ,并 用 计数 器 机 器 的 状态 来 记 住 是 否 已 经 偶数 次 或 奇数 次 把 m 减 1。 
如 末 已 经 奇数 次 把 m 减 1， 则 i = 0。 然 后 把 第 二 个 计数 器 复制 到 第 一 个 计数 器 来 恢复 m。 
同样 地 ， 通 过 确定 m 是 否 被 3 整除 来 检验 是 否 j = 0， 并 通过 确定 m 是 否 被 5 整除 来 检验 是 否 
EK 

3. 把 i,j 和 (或) 分 别 减 1。 为 了 这 样 做 ， 分别 把 m 除 以 2, 3 或 5。 定 理 8.14 的 证 明说 明 如 何 
利用 额外 的 一 个 计数 器 来 执行 除 以 任意 常数 的 除法 。3 计 数 器 机 器 不 能 把 计数 减低 到 0 以 
下 (这 是 一 种 错误 )， 所 以 如 果 m 不 能 被 正在 进行 除法 的 常数 所 除 尽 ， 则 进行 模拟 的 2 计数 
绩 机 姓 就 停机 且 不 接受 。 口 


在 计数 器 合 3 为 2 构造 中 的 常数 选择 
注意 ， 在 定理 8.15 的 证 明 中 2, 3 和 5 是 不 同 的 素数 ， 这 是 多 么 的 重要 。 假 如 选择 了 m = 


234 ， 则 mm = 12 就 可 能 表示 i=0,j= 1,k= 1， 或 者 表示 i= 2,j= 1;k=0。 因 此 ;就 不 能 区 分 
或 是否 为 0， 因 此 就 不 能 可 靠 地 模拟 3 计数 器 机 器 。 





8.5.5 习题 


习题 8.5.1 ” 非 形式 化 但 清楚 地 描述 接受 下 列 语言 的 计数 器 机 器 。 在 每 种 情况 下 都 使 用 尽 可 
能 少 的 计数 器 ， 但 不 超过 两 个 计数 器 。 
*a) {0"l"ln 宇 m 宇 1 }。 
Dj US TI 
BC) et |i 2 或 i 
361 1 dc 大 或 成 和 天 下 
! 习题 8.5.2 本题 目标 是 证 明 输入 带 有 末端 标记 的 单 堆栈 机 器 与 确定 型 PDA 相 比 并 不 具有 更 
强 的 能 力 。L$ 是 语言 L 与 只 有 一 个 串 $ 的 语言 的 连接 ; 也 就 是 说 ，L$ 是 使 得 w 属 于 L 的 所 有 的 串 w$ 
的 集合 。: 证 明 : 如 果 L$ 是 DPDA 接 受 的 语言 ，$ 是 末端 标记 符号 ，$ 不 在 L 的 任何 串 中 出 现 ， 则 某 
个 DPDA 接 受 L。 提 示 : 这 个 问题 其 实 是 证 明 DPDA 语 言 在 习题 4.2.2 中 定义 的 La 运算 下 封闭 的 问 
题 。 必 须 修改 L$ 的 DPDA P， 把 每 个 堆栈 符号 X 换 成 所 有 可 能 的 有 序 对 (X, S$)，S 是 状态 集合 。 如 
霖 P 有 堆栈 Xi1X2…X,， 则 为 L 构 造 的 DPDA 有 堆栈 (Xi1, 5S1) (X2, 5,))…(X, 5S,)， 其 中 每 个 $; 是 使 得 P 从 
ID (gq, a, XiXi+1…X) 开始 将 接受 的 状态 q 的 集合 。 


图 吓 机 时 3| 247 


8.6 图 灵机 与 计算 机 


现在 ， 比 较 图 灵机 与 日 常 使 用 的 普通 类 型 计算 机 。 这 些 模型 似乎 相当 不 同 ， 但 却 能 接受 恰 
好 相同 的 语言 ， 即 递归 可 枚 举 语 言 。“ 普 通 计算 机 ”的 概念 不 是 以 数学 方式 良好 地 定义 的 ， 所 
以 本 节 的 论证 有 必要 是 非 形式 化 的 。 必 须 求助 于 计算 机 能 做 什么 的 直觉 ， 特 别 是 当 涉 及 的 数字 
超过 了 这 些 机 器 体系 结构 上 固定 的 通常 限制 (例如 32 位 地 址 空间 ) 时 。 本 节 的 断言 可 分 为 两 个 
部 分 : 

1. 计算 机 能 模拟 图 灵机 。 

2. 图 灵机 能 模拟 计算 机 ， 且 至 多 在 计算 机 花费 步 数 的 某 个 多 项 式 时 间 内 这 样 做 。 


8.6.1 用 计算 机 模拟 图 灵机 


首先 检查 计算 机 如 何 能 模拟 图 灵机 。 给 定 具 体 的 TM M， 必 须 写 出 效果 如 同 M 的 程序 。M 的 
一 个 方面 是 有 穷 控制 。 只 有 有 穷 多 种 状态 和 有 穷 多 条 转移 规则 ， 所 以 程序 可 把 状态 编码 成 字符 
串 并 使 用 转移 表 ， 查 转移 表 来 确定 每 步 移动 。 同 样 地 ， 可 把 带 符号 编码 成 固定 长 度 的 字符 串 ， 
因为 只 有 有 穷 多 种 带 符号 。 

考虑 程序 如 何 模拟 图 灵机 的 带 时 ， 严 重 的 问题 出 现 了 。 这 条 带 可 无 穷 地 增长 ， 但 计算 机 的 
存储 ( 主 存 、 磁 盘 或 其 他 存储 设备 ) 都 是 有 穷 的 。 固 定 大 小 的 存储 能 模拟 无 穷 的 带 吗 ? 

如 有 没有 机 会 更 换 存储 设备 ， 事 实 上 就 不 能 ， 计 算 机 于 是 就 是 有 穷 自 动机 ， 计 算 机 接受 的 
惟一 语言 都 是 正则 的 。 不 过 ， 普 通 计算 机 都 有 可 交换 的 存储 设备 ， 例 如 可 能 是 “压缩 ”磁盘 。 
事实 上 ， 典 型 的 硬盘 是 可 拆卸 的 ， 可 以 换 成 同样 的 空 硬盘 。 

因为 在 可 使 用 多 少 磁盘 的 问题 上 没有 明显 的 限制 ， 所 以 假设 计算 机 需要 多 少 磁盘 就 有 多 少 
磁盘 可 用 。 因 此 可 安排 磁盘 放 在 两 个 堆栈 中 ， 如 图 8-21 所 示 。 一 个 堆栈 保存 位 于 带头 左边 远 处 
的 图 灵机 带 单元 中 的 数据 ， 另 外 一 个 堆栈 保存 带头 右边 远 处 的 数据 。 在 堆栈 中 位 置 越 深 ， 数 据 
就 离 帝 头 越 远 。 


图 8-21 用 普通 计算 机 模拟 图 灵机 
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如 有 果 TM 的 带头 同 左 移动 得 很 还 ， 结 果 到 达 计 算 机 中 目前 安装 的 磁盘 不 能 表示 的 单元 ， 则 
TM 显 示 消 息 “ 回 左 交 换 。 操 作 人 员 印 下 当前 安装 的 磁盘 ， 放 到 右边 堆栈 的 顶 上 。 把 左边 堆栈 
顶 上 的 磁盘 安装 在 计算 机 上 ， 人 恢复 计算 。 

类 似 地 ， 如 采 TM 的 带头 到 达 右 边 很 远 的 单元 ， 使 得 所 安装 的 磁盘 不 能 表示 这 些 单元 ， 则 显 
示 “ 问 右 交 换 ” 信 息 。 操 作 人 员 把 目前 安装 的 磁盘 移动 到 左边 堆栈 的 顶端 ， 把 右边 堆栈 顶端 的 
磁盘 安装 到 计算 机 中 。 如 果 任 意 一 边 的 堆栈 空 了 ， 则 TM 进入 了 带 上 的 全 空格 区 域 。 在 这 种 情况 
下 ， 操 作 人 员 必 须 到 商店 去 买 新 的 磁盘 来 安装 上 。 


非常 大 的 带 字母 表 的 问题 


如 采 带 符号 的 个 数 大 到 连 一 个 带 符号 的 编码 都 不 能 装 在 一 个 磁盘 中 ， 则 8.6.1 节 的 讨论 
第 有 问题 的 。 的 确 可 能 有 非常 多 的 带 符号 ， 因 为 30G 的 磁盘 就 能 表示 2240ooooo 个 符号 中 的 
任何 一 个 。 同 样 地 ， 状 态 的 个 数 可 能 大 到 用 整个 磁盘 也 不 能 表示 一 个 状态 。 

这 个 问题 的 一 种 解法 是 从 限制 TM 使 用 的 带 符号 个 数 开始 的 。 我 们 总 是 能 用 二 进 制 来 编 
码 任意 的 带 字母 表 。 因 此 ， 任 何 TM M 都 能 被 另 一 个 TM M' 所 模拟 ，M' 只 使 用 带 符号 0, 1, B。 
但 M 需要 许多 状态 ， 因 为 为 了 模拟 M 的 一 步 移动 ,，TM M' 必 须 扫描 带 ， 并 在 有 穷 控 制 中 记 
住 说 明 M 正 在 扫描 什么 符号 的 所 有 位 。 采 用 这 种 方式 ， 得 到 的 是 非常 大 的 状态 集合 ， 当 确 
定 M' 的 状态 是 什么 时 ,以 及 确定 M' 的 下 一 步 移动 应 当 是 什么 时 ， 模 拟 M' 的 PC 可 能 不 得 不 安 
准 和 印 下 几 个 磁盘 。 没 有 人 曾 考 虑 过 执行 这 种 性 质 的 任务 的 计算 机 ， 所 以 典型 的 操作 系统 
不 支持 这 种 类 型 的 程序 。 但 是 ， 假 如 希望 这 样 做 ， 就 可 以 给 没有 操作 系统 的 计算 机 编程 ， 
让 计算 机 具有 这 种 能 力 。 

幸运 的 是 ， 可 以 通过 技巧 来 解决 如 何 模拟 巨大 状态 数 或 带 符号 数 的 TM 的 问题 。 在 9.2.3 
节 中 将 看 到 可 设计 实际 上 是 “存储 程序 ”的 TM。 这 个 所 谓 “ 通 用 的 ”TM 读 取 带 上 二 进 制 
编码 的 任意 TM 转移 函数 并 模拟 那个 TM。 通 用 TM 具有 非常 合理 的 状态 数 和 带 符号 数 。 通 
过 模拟 通用 TM， 就 能 给 普通 计算 机 编程 来 接受 所 希望 的 任何 递归 可 枚 举 语言 ， 而 避免 求 
助 于 模拟 强调 了 磁盘 上 存储 限度 的 状态 数 。 


8.6.2 用 图 灵机 模拟 计算 机 


还 需要 考虑 反 向 比较 : 是 否 存 在 着 普通 计算 机 能 做 而 图 灵机 不 能 做 的 事情 。 重 要 的 从 属 问 
题 征 : 计算 机 做 某 些 事情 能 否 比 图 灵机 快 很 多 。 本 节 将 论证 TM 能 模拟 计算 机 ， 在 8.6.3 节 中 论证 
能 足够 快 地 进行 模拟 ， 即 在 给 定 问 题 上 计算 机 与 TIM 的 运行 时 间 “ 只 ”相差 多 项 式 。 再 次 提醒 读 


”者 ,存在 着 重要 的 理由 认为 ， 相 互 介 于 多 项 式 之 间 的 所 有 运行 时 间 都 是 类 似 的 ， 但 在 运行 时 间 


上 的 指数 差别 则 是 “ 太 大 了 ”。 在 第 10 章 中 开始 研究 多 项 式 对 指数 运行 时 间 的 理论 。 
为 开始 讨论 TM 如 何 模拟 计算 机 ， 先 给 出 真实 而 非 形式 化 的 关于 典型 计算 机 如 何 操作 的 模型 。 
a) 自 先 ， 将 假设 字 的 不 定 长 序列 组 成 计算 机 的 存储 ， 每 个 字 具 有 一 个 地 址 。 在 真实 计算 机 
中 ， 字 可 能 是 32 位 长 或 64 位 长 ， 但 本 书 将 不 限制 给 定 字 的 长 度 。 假 设 地 址 是 整数 0, 1, 2 等 。 
在 真实 计算 机 中 ， 可 能 用 连续 整数 来 编码 单个 字 节 ， 所 以 字 的 地 址 可 能 是 4 或 8 的 倍数 ， 


-an 


但 这 种 差别 不 重要 。 另 外 ， 在 真实 计算 机 中 ， “存储 器 ”中 的 字数 可 能 是 有 限制 的 ， 但 因 
为 希望 说 明 任 意 个 数 的 磁盘 或 其 他 存储 设备 的 内 容 ， 所 以 将 假设 字数 没有 限制 。 
b) pp i 像 典 型 计算 机 的 机 左 或 汇编 语言 那样 ， 这 些 
每 个 表示 一 条 简单 指令 。 例 如 这 些 指令 : 把 数据 从 一 个 字 移 动 到 另 一 个 字 ， 或 者 把 一 
En 上 。 假设 允许 “间接 寻 址 ”， 所 以 一 条 指令 可 能 引用 另 一 个 字 ， 并 且 用 
男 外 这 个 字 的 内 容 作 为 被 操作 的 字 的 地 址 。 在 所 有 现代 计算 机 中 都 能 找到 的 这 种 能 力 对 
于 下 列 操作 是 必要 的 : 执行 数组 访问 ， 追 踪 表 中 链接 ,或 在 一 般 情况 下 执行 指针 操作 。 

0) 假设 每 条 指令 涉及 有 限 (有 穷 ) 多 个 字 ， 且 每 条 指令 至 多 改变 一 个 字 的 值 。 

d) 典型 计算 机 具有 和 寄存 器 ， 即 可 以 特别 快 地 访问 的 存储 字 。 通 常 ， 限 制 诸如 加 法 这 样 的 操 
作 在 寄存 器 中 进行 。 本 书 将 不 做 任何 这 样 的 限制 ， 而 是 允许 在 任何 字 上 执行 任何 操作 。 
将 不 考虑 在 不 同 字 上 操作 的 相对 速度 ， 如 果 只 比较 计算 机 与 图 灵机 的 语言 识别 能 力 ， 这 
样 的 考虑 也 是 不 必要 的 。 即 使 对 运行 时 间 感 兴趣 到 多 项 式 以 内 ， 访 问 不 同 字 的 相对 速度 
也 是 不 重要 的 ， 因 为 这 些 差 别 “ 只 ”是 常数 因子 。 

图 8-22 显 示 如 何 设 计 图 灵机 来 模拟 计算 机 。 这 个 TM 使 用 多 条 带 ， 但 使 用 8.4.1 节 的 构造 就 能 


转化 成 单 带 TM。 第 一 条 带 表 示 计 算 机 的 整个 存储 。 使 用 这 样 的 编码 ， 即 存储 字 地 址 按照 数值 顺 
序 与 这 些 存储 字 内 容 交 替 出 现 。 地 址 和 内 容 都 用 二 进 制 书 写 。 标 记 符 号 * 和 # 用 来 帮助 找到 地 址 
和 内 容 结尾 ， 以 及 区 分 二 进 制 串 是 地 址 还 是 内 容 。 另 一 个 标记 $ 表 示 地 址 和 内 容 序 列 的 开头 。 


第 二 条 带 是 “指令 计数 器 ”"。 这 条 带 保 存 一 个 二 进 制 整 数 ， 表 示 带 1 上 的 一 个 存储 单元 。 将 


把 这 个 单元 中 保存 的 值 解释 成 将 要 执行 的 下 一 条 计算 机 指令 。 


有 穷 控制 
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图 8-22 模拟 典型 计算 机 的 图 灵机 
第 三 条 带 保存 “存储 地 址 ”或 这 个 地 址 的 内 容 ( 当 在 带 1 上 确定 地 址 位 置 之 后 )。 为 了 执行 
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指令 ， TM 必须 找到 一 个 或 多 个 保存 着 计算 中 所 涉及 数据 的 存储 地 址 的 内 容 。 首 先 ， 把 所 需 地 址 
复制 到 带 3 上 并 与 带 1 上 地 址 比较 ， 直 到 发 现 匹 配 为 止 。 把 这 个 地 址 的 内 容 复制 到 第 三 条 带 上 ， 
并 移动 到 所 需要 的 任何 地 方 ， 典 型 情况 是 ， 移 动 到 表示 计算 机 寄存 器 的 一 个 低 编号 地 址 。 
TM 将 按 如 下 方式 模拟 计算 机 的 指令 周期 : 
1. 搜索 第 一 条 带 ， 寻 找 与 带 2 上 指令 号 匹配 的 地 址 。 从 第 一 条 带 上 $ 处 开始 六 向 右 移动 ， 比 
较 每 个 地 址 与 带 2 的 内 容 。 比 较 两 条 带 上 的 地 址 是 容易 的 ， 因 为 只 需 把 带头 一 前 一 后 地 向 
右 移动 ， 并 验证 扫描 的 符号 总 是 相同 。 
2. 找到 指令 地 址 时 检查 地 址 的 值 。 假 设 当 字 是 指令 时 ,前 几 个 位 表示 要 做 的 动作 (比如 复 
制 、 加、 分 支 等 )， 剩 下 的 位 编码 表示 动作 中 涉及 的 一 个 或 多 个 地 址 。 
3. 如 采 指 令 要 求 某 个 地 址 的 值 ， 则 这 个 地 址 将 是 指令 的 一 部 分 。 把 这 个 地 址 复制 到 第 三 条 


366 带 上 ， 标 记 指 令 的 位 置 ， 使 用 第 一 条 带 的 第 二 道 (在 图 8-22 中 没有 显示 出 来 )， 所 以 必要 
时 可 以 回 到 这 条 指令 。 现在 ,在 第 一 条 带 上 搜索 存储 地 址 ， 把 这 个 地 址 的 值 复 制 到 带 3 上 ， 
即 保存 着 存储 地 址 的 带 上 。 


4. 执 行 指令 或 执行 涉及 这 个 值 的 指令 的 一 部 分 。 不 可 能 讨论 所 有 可 能 的 机 器 指令 。 不 过 ， 
对 于 这 个 新 的 值 可 能 执行 的 操作 的 例子 是 : 
(a) 把 这 个 值 复制 到 某 个 其 他 地 址 。 从 指令 得 到 第 二 个 地 址 ， 如 前 所 述 ， 把 这 个 地 址 写 在 
审 3 上 并 在 带 1 上 搜索 这 个 地 址 ， 就 能 找到 这 个 地 址 。 找 到 第 二 个 地 址 时 ， 就 把 这 个 值 
复制 到 为 这 个 地 址 保留 的 空间 里 。 如 果 需 要 更 多 的 空间 来 保存 这 个 新 的 值 ， 或 者 如 果 
新 的 值 比 老 的 值 占用 更 少 的 室 间 ， 则 通过 平移 来 改变 可 用 的 空间 ,也 就 是 说 ， 
i. 把 新 的 值 所 占 之 处 右边 的 整个 非 空 白带 复制 到 草稿 带 上 。 
i. 把 新 的 值 写 下 来 ， 使 用 这 个 值 的 正确 的 空间 数量 。 
这 . 把 草稿 带 重 新 复制 到 带 1 上 ， 紧 接着 新 值 的 右边 。 
特殊 情形 是 ， 这 个 地 址 可 能 还 没有 出 现在 第 一 条 带 上 ， 因 为 在 此 之 前 计算 机 还 没有 用 
到 过 这 个 值 。 在 这 种 情况 下 ， 在 第 一 条 带 上 找到 这 个 值 所 属 的 地 方 ， 平 移 腾 出 适当 的 
地 方 ， 把 地 址 和 新 的 值 都 保存 在 这 个 地 方 。 
(b) 把 刚刚 找到 的 值 添加 到 某 个 其 他 地 址 的 值 上 。 回 到 指令 来 确定 其 他 地 址 的 位 置 ， 在 带 
1 上 找到 这 个 地 址 。 对 这 个 地 址 的 值 与 带 3 上 保存 的 值 执行 二 进 制 加 法 。 从 右 端 扫描 这 
两 个 值 ，TM 就 能 毫 无 困难 地 执行 逐 位 进位 加 法 。 如 果 结 果 需 要 更 多 空间 ， 则 使 用 平 
移 技 术 在 带 1 上 分 配 空间 。 
(0) 指令 是 “ 跳 转 *"， 也 就 是 说 ， 是 从 地 址 中 取出 下 一 条 指令 的 指示 ， 这 个 地 址 是 现在 保 
存在 带 3 上 的 值 。 简 单 地 把 带 3 复制 到 带 2， 并 且 再 次 开始 指令 周期 。 
5. 在 执行 指令 并 确定 指令 不 是 跳 转 之 后 ， 给 带 2 上 的 指令 计数 器 加 1， 再 次 开始 指令 循环 。 
TM 如 何 模拟 典型 计算 机 ， 还 有 许多 其 他 细节 。 在 图 8-22 中 显示 了 第 四 条 带 ， 这 条 带 保 存 被 
模拟 的 计算 机 输入 ， 因 为 计算 机 必须 从 文件 读 输入 (计算 机 正在 测试 其 语言 成 员 性 的 字 )。TM 
367| ”能 改 为 从 这 条 带 来 读 。 
图 中 还 显示 了 一 条 草稿 带 。 模 拟 有 些 计算 机 指令 可 能 有 效 地 使 用 一 条 或 多 条 草稿 带 来 计算 ， 
诸如 乘法 的 算术 运算 。 
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最 后 ， 假 设计 算 机 产生 说 明 是 否 接受 输入 的 输出 。 为 把 这 个 动作 翻译 成 TM 能 执行 的 条 件 ， 
我 们 将 假设 计算 机 有 “接受 ”指令 (可 能 对 应 着 计算 机 调用 的 往 输出 文件 上 写 yes 的 函数 )。 当 
TM 模拟 这 条 计算 机 指令 的 执行 时 ，TM 进 入 自身 的 接受 状态 并 停机 。 

上 面 的 讨论 远 远 不 是 完整 的 形式 化 的 TM 能 模拟 计算 机 的 证 明 ， 但 它 应 当 提 供 了 足够 的 细 市 
来 说 服 读者 TM 是 计算 机 能 力 的 有 效 表示 。 因 此 ， 未 来 将 只 使 用 图 灵机 作为 任意 种 类 的 计算 装置 
计算 能 力 的 形式 化 表示 。 


8.6.3 比较 计算 机 与 图 灵机 的 运行 时 间 


现在 必须 讨论 模拟 计算 机 的 图 灵机 的 运行 时 间 问 题 。 前 面 已 经 指出 : 

运行 时 间 问 题 是 重要 的 ， 因 为 不 仅 将 用 TM 来 检查 到 底 什 么 是 能 计算 的 这 样 的 问题 ， 而 且 检 查 

什么 是 能 以 足够 的 效率 来 计算 的 、 使 得 在 实践 中 可 使 用 问题 的 基于 计算 机 的 解法 这 样 的 问题 。 

“在 易 解 问题 (能 行 之 有 效 地 解决 的 问题 ) 与 难 解 问题 (虽然 能 解决 但 解决 得 不 够 快 而 使 得 

解法 不 可 用 的 问题 ) 之 间 的 分 界线 一 般 认为 是 处 于 在 多 项 式 时 间 内 能 计算 的 问题 与 需要 超 

过 任何 多 项 式 时 间 才 能 计算 的 问题 之 间 。 

。 因 此 ， 需 要 确保 如 果 在 典型 计算 机 上 在 多 项 式 时 间 内 问题 能 解决 ， 则 图 灵机 在 多 项 式 时 间 

内 问题 能 解决 ， 反 之 亦 然 。 因 为 这 个 多 项 式 等 价 性 ， 所 以 关于 图 灵机 以 适当 效率 能 做 什么 

或 不 能 做 什么 的 结论 同样 很 好 地 适用 于 计算 机 。 

回忆 一 下 ， 在 8.4.3 节 中 曾经 确定 了 单 带 TM 与 多 带 TM 之 间 运 行 时 间 的 差别 是 多 项 式 的 (具体 
地 说 是 平方 )。 因 此 ， 证 明 凡是 计算 机 能 做 的 事情 ， 在 8.6.2 节 中 描述 的 多 带 TM 在 计算 机 所 花费 时 
间 的 多 项 式 时 间 内 也 能 做 ， 这 就 足够 了 。 进 一 步 可 以 知道 同样 的 结论 对 于 单 带 TM 也 是 成 立 的 。 

在 给 出 上 面 描述 的 图 灵机 能 在 O(m) 步 之 内 模拟 计算 机 n 步 这 个 证 明之 前 ， 还 需要 面临 乘法 
作为 计算 机 指令 这 样 的 问题 。 问 题 是 没有 给 出 一 个 计算 机 字 所 能 保存 位 数 的 限制 。 例 如 ， 假 设 
计算 机 开始 时 有 字 保 存 整 数 2， 并 打算 在 连续 n 步 之 中 让 该 字 自 乘 ， 则 该 字 就 应 当 保 存 数值 27"。 
这 个 数值 需 用 2" + 1 位 来 表示 ， 所 以 图 灵机 模拟 这 n 条 指令 所 花费 时 间 就 应 当 至 少 是 n 的 指数 。 

一 种 方法 是 坚持 让 字 保 持 固定 的 最 大 长 度 ， 如 64 位 。 于是， 产生 太 长 的 字 的 乘法 (或 其 他 
运算 ) 可 能 导致 计算 机 停机 ， 图 灵机 就 没有 必要 继续 模拟 下 去 。 将 采取 更 自由 的 姿态 : 计算 机 
可 使 用 增 至 任意 长 度 的 字 ， 但 一 条 计算 机 指令 只 能 产生 比 参数 长 度 多 一 位 的 字 。 


例 8.16 ”在 上 述 限 制 下 ， 加 法 是 允许 的 ， 因 为 结果 最 多 只 能 比 加 数 长 度 多 一 位 。 乘 法 是 不 
人 允许 的 ， 因 为 两 个 m 位 的 字 可 能 有 长 度 为 2m 的 乘积 。 但 是 ， 可 用 一 系列 m 位 加 法 ， 穿 插 着 把 乘 数 
左 移 一 位 (这 是 只 给 字 长 增加 1 的 另 一 种 运算 ) 来 模拟 m 位 整数 相 乘 。 因 此 ， 仍 然 能 把 任意 长 度 
整数 相 乘 ， 但 计算 机 所 人 花费 时 间 是 与 运算 数 长 度 平方 成 比例 的 。 口 


假设 每 条 执行 的 计算 机 指令 最 大 增加 一 位 长 度 ; 就 能 证 明 两 个 运行 时 间 之 间 的 多 项 式 关系 。 
证 明 的 思路 是 ; 注意 在 执行 了 n 个 指令 之 后 ， 在 TM 存储 带 上 提 及 字 的 个 数 是 O(n)， 且 每 个 计算 
机 字 需 要 O(n) 个 图 灵机 单元 来 表示 。 因 此 ， 带 是 O(n) 个 单元 那么 长 ，TM 能 在 O(n 时 间 内 确定 
一 条 计算 机 指令 所 需 有 穷 多 个 字 的 位 置 。 

但 是 ， 在 指令 上 还 必须 施加 另 一 个 要 求 。 即 使 指令 不 产生 长 字 作 为 结果 ， 指 令 也 可 能 花费 
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长 时 间 来 计算 结果 。 因 此 做 出 另外 一 个 假设 : 多 带 图 灵机 能 在 O(e) 步 之 内 完成 应 用 到 长 度 不 超 
过 K 的 字 上 的 指令 本 身 。 确 实 ， 在 多 带 TM 的 O(o 步 之 内 能 完成 诸如 加 法 、 移 位 、 值 的 比较 等 典 
型 的 计算 机 操作 ， 所 以 现在 是 完全 自由 地 允许 计算 机 在 一 条 指令 之 内 做 什么 。 


定理 8.17 如 果 计算 机 : 

1. 只 有 让 最 大 字 长 度 至 多 增加 1 的 指令 ， 并 且 

2. 只 有 多 带 TM 在 长 度 为 K 的 字 上 能 在 不 超过 OUe) 步 之 内 完成 的 指令 ， 
则 在 8.6.2 节 中 描述 的 图 灵机 能 在 自身 O(e) 步 之 内 模拟 计算 机 7m 步 。 

证 明 首先 注意 图 8-22 中 TM 第 一 条 (存储) 带 开始 时 只 有 计算 机 程序 。 这 个 程序 可 能 很 长 ， 
但 这 个 程序 是 固定 的 并 且 具 有 与 计算 机 执行 的 指令 步 数 n 无 关 的 常数 长 度 。 因 此 ， 存 在 某 个 常数 
c,c 是 计算 机 的 字 以 及 程序 中 出 现 的 地 址 的 最 大 值 。 还 存在 常数 4，d 是 程序 占据 的 字数 。 

因此 ， 在 执行 n 步 之 后 ， 计 算 机 不 能 产生 长 度 超过 c + n 的 任何 字 ， 因 此 也 不 能 产生 或 使 用 长 
度 超过 c + n 的 任何 地 址 。 每 条 指令 至 多 产生 一 个 新 地 址 ， 这 个 地 址 对 应 一 个 值 ， 所 以 在 执行 n 个 
指令 之 后 ， 地 址 总 数 至 多 是 d + n。 每 个 地 址 一 字 的 组 合 至 多 需要 2(c +n)+2 位 (包括 地 址 、 内 容 、 
分 隔 这 两 者 的 两 个 标记 符号 ) ， 所 以 ， 在 模拟 m 个 指令 之 后 ，TM 占 据 的 带 单 元 总 数 至 多 是 2(&+ 门 
(c+n+1)。 由 于 c 和 4d 是 常数 ， 所 以 这 个 单元 数 是 O(n?)。 

现在 知道 能 在 O(n 时 间 之 内 完成 一 条 计算 机 指令 中 所 涉及 的 固定 次 数 的 地 址 查找 。 字 都 是 
O(n) 长 度 的 ， 所 以 第 二 个 假设 说 明 TM 在 O(n”) 时 间 之 内 能 完成 这 些 指 令 本 身 。 剩 余 的 惟一 重要 
的 指令 开销 是 TM 为 了 容纳 新 的 或 增长 的 字 而 在 带 上 腾 出 更 多 空间 所 花费 的 时 间 。. 但是， 平移 涉 
及 从 带 1 复 制 至 多 CC) 数据 到 草稿 带 并 再 次 返回 。 因 此 ， 对 每 条 计算 机 指令 来 说 ， 平 移 也 只 需 
要 O(n”) 时 间 ，。 

结论 是 TM 在 自身 O(n”) 步 之 内 模拟 计算 机 的 一 步 。 因 此 ， 在 定理 的 叙述 中 断言 图 灵机 的 
O(m) 步 能 模拟 计算 机 n 步 。 口 


最 后 的 事实 是 ， 现 在 看 到 立方 步 数 就 足以 让 多 带 TM 去 模拟 计算 机 。 从 8.4.3 节 还 知道 单 带 
TM 通过 至 多 平方 步 数 就 能 模拟 多 带 TM。 央 此 


定理 8.18 单 带 图 灵机 使 用 至 多 O(n5) 步 能 模拟 定理 8.17 中 描述 的 类 型 的 计算 机 n 步 。 日 
8 天 :2 小结 


“图 灵机 : TM 是 抽象 计算 装置 ， 同 时 具有 真实 计算 机 和 关于 什么 能 被 计算 的 其 他 数学 定义 
的 能 力 。TM 由 有 穷 状态 控制 和 划分 成 单元 的 无 穷 带 组 成 。 每 个 单元 保存 有 穷 多 种 带 符号 
之 一 ， 其 中 一 个 单元 是 带头 的 当前 位 置 。TM 根 据 当 前 状态 和 带头 扫描 的 单元 中 的 带 符号 
来 进行 移动 。 在 一 步 移动 中 ，TM 改 变 状态 ， 用 某 个 带 符号 改写 扫描 的 单元 ,或 者 把 带头 
癌 左 或 向 右 移动 一 个 单元 。 

"图 灵机 接受 : TM 启动 时 在 带 上 有 输入 ， 即 有 穷 长 度 的 带 符号 串 ， 带 的 其 余部 分 的 每 个 单 
元 都 包含 空格 符号 。 空 格 是 带 符号 之 一 ， 从 带 符号 的 子 集合 (不 包括 空格 ， 即 所 谓 输 入 符 
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号 ) 中 选择 输入 。 如 果 TM 最 终 进 入 接受 状态 ， 则 接受 输入 。 

。 递 归 可 枚 举 语 言 : TM 接受 的 语言 称 为 递归 可 枚 举 (RE) 语言 。 因 此 ，RE 语 言 是 任意 种 类 
的 计算 装置 能 够 识别 或 接受 的 语言 。 

。ITM 的 皮 时 描述 : 我 们 用 包括 从 最 左边 到 最 右边 非 空格 带 单 元 的 有 穷 长 度 的 串 描 述 TM 的 当 
前 格局 。 把 状态 放 在 带 符 号 序列 中 恰好 在 扫描 单元 左边 ， 就 表示 出 状态 和 带头 位 置 。 

。 在 有 穷 控 制 中 存储 :有 时 候 ， 如 果 想 像 状态 具有 两 个 或 两 个 以 上 分 量 ， 在 有 穷 控 制 中 存储 
就 有 助 于 设计 具体 语言 的 TM。 一 个 分 量 是 控制 分 量 ， 起 状态 通常 所 起 的 作用 。 另 外 一 个 
分 量 保存 TM 需要 记忆 的 数据 。 

。 多 道 : 如 末 认 为 带 符 号 是 具有 固定 个 数 分 量 的 向 量 ， 则 多 道 常常 是 有 帮助 的 。 可 把 每 个 分 
量 可 视 化 成 带 的 独立 轨道 。 

。 多 带 图 灵机 : 具有 某 个 固定 数目 但 多 于 一 条 的 带 的 扩展 TM 模型 。 这 种 TM 的 一 步 移动 是 基 
于 状态 和 带头 在 每 条 带 上 扫描 的 符号 的 向 量 。 在 一 步 移动 中 ， 多 带 TM 改 变 状态 ， 用 每 个 
市 头 改写 扫描 的 单元 中 的 符号 ， 把 任何 或 全 部 带头 在 任意 方向 上 移动 一 个 单元 。 多 带 TM 
比 常 规 单 带 TM 能 更 快 地 识别 某 些 语言 ， 但 多 带 TM 不 能 识别 任何 非 RE 语言 。 

。 非 确定 型 图 灵机 : NTM 对 于 每 种 状态 和 扫描 的 符号 都 具有 有 穷 多 种 下 一 步 移 动 (状态 、 
新 符号 和 带头 移动 ) 的 选择 。 如 果 任 何 选择 序列 导致 有 接受 状态 的 ID ， 则 NTM 接 受 输 入 。 
NTM 似 乎 比 确定 型 TM 更 强大 ， 但 NTM 不 能 识别 不 是 RE 的 任何 语言 。 

。 半 无 穷 带 图 灵机 : 可 限制 TM 的 带 ， 使 其 只 在 右边 是 无 穷 的 ， 而 在 带头 初始 位 置 左边 没有 
任何 单元 。 这 样 的 TM 能 接受 任何 RE 语言 。 

。 多 堆栈 机 器 : 可 限制 多 带 TM 的 带 ， 使 其 行为 像 堆 栈 。 输 入 在 独立 的 带 上 从 堪 向 右 只 读 一 
次 ， 模 仿 有 穷 目 动机 或 PDA 的 输入 方式 。 单 堆栈 机 器 其 实 是 DPDA， 但 有 两 个 堆栈 的 机 器 
能 接受 任何 RE 语言 。 

“计数 器 机 器 : 可 进一步 限制 多 堆栈 机 器 的 堆栈 ;除了 底 端 标记 之 外 只 有 一 种 符号 。 因 此 ， 
每 个 堆栈 的 作用 像 一 个 计数 器 ， 人 允许 保存 一 个 非 负 整数 ， 并 允许 检验 所 保存 整数 是 否 为 0， 
但 没有 其 他 功能 。 具 有 两 个 计数 器 的 机 器 足以 接受 任何 RE 语言 。 


* 用 真实 计算 机 模拟 图 灵机 : 如 果 承 认 存 在 可 拆 印 存 储 设 备 〈 比 如 磁盘 ) 的 供应 是 潜在 无 穷 


的 ， 以 模拟 TM 带 的 非 空格 部 分 ， 则 在 原则 上 用 真实 计算 机 来 模拟 TM 就 是 可 能 的 。 因 为 制 
和 抬 磁 盘 的 物理 资源 并 不 是 无 穷 的 ， 所 以 这 个 论证 是 有 问题 的 。 但 是 ， 在 宇宙 中 存在 多 少 存 
储 ， 这 个 限度 是 未 知 的 并 无 疑 是 巨大 的 ， 所 以 像 在 TM 带 中 那样 ， 无 穷 资 源 的 假设 是 在 实 
践 中 现实 的 ， 并 且 是 公认 的 。 

“用 图 灵机 模拟 计算 机 : TM 可 以 使 用 一 条 带 保存 寄存 器 、 主 存 、 磁 盘 及 其 他 存储 设备 的 所 
有 位 置 和 内 容 ， 来 模拟 真实 计算 机 的 存储 和 控制 。 因 此 可 以 相信 ，TM 做 不 到 的 某 些 事情 ， 
真实 计算 机 也 做 不 到 。 
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第 9 章 不 可 判定 性 


本 章 首先 在 图 灵机 的 背景 下 重复 8.1 节 的 论证 ;对 于 计算 机 不 能 解答 的 一 些 问 题 的 存在 性 来 
说 ;这 个 论证 是 一 个 似乎 有 理 的 论证 。 问 题 在 于 8.1 节 的 “证 明 ” 被 迫 忽略 了 一 些 实际 限制 ， 在 
任何 真实 计算 机 上 ，C 语 言 (或 任何 其 他 程序 设计 语言 ) 的 每 种 实现 都 带 有 这 些 限制 。 但 是 这 些 
限制 (比如 地 址 空间 的 大 小 ) 都 不 是 根本 性 限制 。 倒 不 如 说 ， 随 着 时 光 流 逝 ; 从 一 些 方面 来 衡 
量 ， 比 如 地 址 空间 的 大 小 、 主 存 的 大 小 以 及 其 他 等 等 ， 可 以 预期 计算 机 将 要 发 生 不 确定 的 增长 ; 

通过 把 注意 力 集中 到 不 存在 这 些 限制 的 图 灵机 上 ， 就 能 更 好 地 把 握 这 个 本 质 的 思想 : 某 种 
计算 装置 能 做 什么 ,假如 今天 还 不 能 ， 那 么 在 将 来 某 个 时 刻 能 。 在 本 章 中 ; 将 要 形式 化 地 证 明 : 
任何 图 灵机 都 不 能 解答 的 与 图 灵机 有 关 的 问题 的 存在 性 。 从 8.6 节 知道 ， 图 灵机 可 以 模拟 真实 计 
算 机 ， 甚 至 模拟 那些 没有 目前 已 知 存在 的 限制 的 计算 机 ， 所 以 ， 本 章 将 要 严格 论证 ,无 论 多 么 
慷慨 地 放松 那些 实际 限制 ， 计 算 机 都 不 能 解答 下 面 这 个 问题 : 


* 这 个 图 灵机 接受 由 其 自身 〈 的 编码 ) 构成 的 输入 吗 ? 


然后 ， 把 图 灵机 可 以 解答 的 问题 分 成 两 类 : 有 算法 ( 即 无 论 是 否 接受 输入 ， 都 停机 的 图 灵 
机 ) 的 问题 和 那些 只 能 由 下 面 这 些 图 灵机 来 解答 的 问题 : 这 些 图 灵机 在 不 接受 的 输入 上 ， 可 能 
死 循 环 。 后 一 种 接受 形式 是 有 问题 的 ， 因 为 无 论 这 个 TM 运行 了 多 久 ， 都 无 法 知道 是 否 接 受 输入 。 
因此 ， 我 们 将 要 把 注意 力 集中 到 一 些 技 术 上 ， 这 些 技术 用 来 证 明 一 些 问 题 是 “不 可 判定 的 ”， 即 
这 些 问 题 没 有 算法 ， 无 论 在 某 些 输 入 上 不 停机 的 图 灵机 是 否 接受 这 些 问 题 。 

下 面 将 证 明 下 列 问 题 是 不 可 判定 的 : 


“这 台 图 灵机 接受 这 个 输入 吗 ? 


然后 ， 利 用 这 个 不 可 判定 性 结果 来 证 明 许多 其 他 不 可 判定 问题 。 例 如 ， 证 明 : 与 一 台 图 灵 
机 所 接受 的 语言 有 关 的 所 有 非 平凡 问题 都 是 不 可 判定 的 ， 以 及 许多 与 图 灵机 、， 程 序 或 计算 机 根 
本 无 关 的 问题 是 不 可 判定 的 。 


9.1 非 递 归 可 枚 举 语言 


回忆 一 下 ， 如 果 对 于 某 个 TM M 有 L = L(M)， 则 语言 L 是 递归 可 枚 举 的 (缩写 为 RE)。 另 外 ， 
在 9.2 市 中 将 要 介绍 “递归 的 ”或 “可 判定 的 ”语言 ， 这 些 语言 不 仅 是 递归 可 枚 举 的， 而 且 被 无 
论 是 否 接受 都 总 是 停机 的 TM 所 接受 。 

本 着 的 长 远 目 标 是 证 明 : 由 这 样 的 有 序 对 (KM, w) 组 成 的 语言 是 不 可 判定 的 ， 其 中 : 

1.M 是 具有 输入 字母 表 {0; 1} 的 图 灵机 (用 二 进 制 适当 地 编码 过 )。 

2.w 是 0 和 1 的 串 。 

3. M 接 受 输 入 w。 
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如 果 把 输入 限制 在 二 进 制 字 母 表 上 时 ， 这 个 问题 是 不 可 判定 的 ， 那 么 让 TM 具有 任意 字母 表 这 样 
的 更 一 般 问 题 就 肯定 是 不 可 判定 的 。 

第 一 步 是 把 这 个 问题 叙述 成 关于 一 个 具体 语言 成 员 性 的 真正 问题 。 因 此 ， 必 须 给 出 一 种 无 
论 ITM 有 多 少 种 状态 ， 都 只 使 用 0 和 1 的 图 灵机 编码 。 一 旦 有 了 这 种 编码 ， 就 可 以 把 任意 二 进 制 串 
当 作 是 图 灵机 。 如 果 一 个 串 不 是 某 台 TM 的 合法 表示 ， 就 认为 这 个 串 表 示 一 台 没 有 任何 移动 的 
TM。 因 此 ， 可 以 认为 每 个 二 进 制 串 都 是 某 台 TM。 

一 个 中 间 目 标 ， 也 就 是 本 节 的 主题 ， 涉 及 语言 到 ， 即 “对 角 化 语言 ”， 这 个 语言 由 所 有 使 得 
w 所 表示 的 TM 不 接受 输入 w 的 串 w 组 成 。 我 们 将 要 证 明 : 根本 没有 TM 接 受 语言 上 zx。 记 住 ， 证 明 
根本 没有 图 灵机 接受 一 个 语言 ， 比 证 明 一 个 语言 是 不 可 判定 的 ( 即 没 有 算法 或 没有 总 是 停机 的 
TM) 证 明了 更 强 的 结论 。 

语言 tL 起 到 一 种 与 8.1.2 节 假设 的 程序 三 相 类 似 的 作用 ， 每 当 石 的 输入 以 自身 作为 输入 而 不 
显示 hello，world 时 ， 万 就 显示 hello，world。 更 准确 地 说 ， 当 把 瑟 自 身 作为 输入 时 ， 厂 ， 
的 反应 是 悖 论 ， 所 以 且 ; 不 可 能 存在 ， 正 是 因为 这 样 ，Li 才 不 可 能 被 图 灵机 所 接受 ， 因 为 假如 Li 被 
一 全 TM 所 接受 ， 那 么 当 以 这 人 台 TM 自 身 编码 作 为 输入 时 ， 这 台 TM 将 不 得 不 自 相 矛 盾 。 


9.1.1 枚 举 二 进 制 串 


在 下 面 的 讨论 中 ， 将 有 必要 把 整数 指派 给 所 有 二 进 制 串 ， 使 得 每 个 串 对 应 一 个 整数 ， 并 且 
每 个 整数 对 应 一 个 串 。 如 果 w 是 二 进 制 串 ， 就 把 lw 当 作 二 进 制 整数 ji。 于 是 将 要 把 w 称 为 第 ; 企 串 。 
也 就 是 说 ， 旨 第 一 个 串 ，0 是 第 三 个 串 ，1 是 第 三 个 串 ，00 是 第 四 个 串 ，01 是 第 五 个 串 ， 依 此 类 
推 。 等 价 地 说 ， 把 这 些 串 按 长 度 排序 ， 把 等 长 的 串 按 字典 序 排序 。 此 后 ， 将 要 把 第 ; 企 串 称 为 wi。 


9.1.2 图 灵机 编码 


下 一 个 目标 是 设计 图 灵机 的 二 进 制 编码 ， 使 得 可 以 认为 具有 输入 字母 表 {0, 1} 的 每 个 TM 都 
是 二 进 制 串 。 因 为 刚才 看 到 过 如 何 枚 举 二 进 制 串 ， 所 以 将 要 把 图 灵机 等 同 于 整数 ， 并 且 可 以 谈 
论 “ 第 从 图 灵机 Mi ”"。 为 了 把 TM M = (2, {0, 1}, 卫 6, q1, B, 也) 表示 成 二 进 制 串 ， 必 须 首 先 把 整数 
指派 给 状态 、 带 符号 以 及 方向 L 和 R。 

* 我 们 将 要 假设 : 对 于 某 个 r， 状 态 是 q1, 9;, …, 95 初始 状态 将 总 是 g1，g; 将 是 惟一 的 接受 状 

态 。 注 意 ， 因 为 假设 每 当 TM 进 入 接受 状态 时 就 停机 ， 所 以 从 不 需要 多 于 一 个 接受 状态 。 

* 我们 将 要 假设 .对 于 某 个 s， 带 符号 是 Xi, X, …, X,。 久 将 永远 是 符号 9， 加 将 是 1， 且 将 是 B 

(空格 )。 但 是 ， Wt 给 其 余 的 整数 。 

* 我 们 将 要 把 方向 L 称 为 D1， 而 把 方向 R 称 为 D;。 
因为 可 以 用 许多 不 同 的 顺序 把 整数 指派 给 每 个 TM M 的 状态 和 带 符号 ， 所 以 典型 的 TM 将 有 超过 
一 个 的 编码 。 但 是 ， 这 个 事实 在 下 面 并 不 重要 ， 因 为 将 要 证 明 : 没有 任何 编码 能 表示 TM M， 使 
得 L(M) = Lz。 : 

一 旦 选 定 了 整数 表示 每 个 状态 、 符 号 以 及 方向 ， 就 能 编码 转移 函数 6。 假 设 对 于 某 些 整数 i 
j,k, 1, m， 一 条 转移 规则 是 6(qi, 和 %) = (ge XX, Dw)。 将 要 把 这 个 规则 编码 成 串 01010ti010"。， 注 意 ， 

因为 i,j,k, 1, m 都 至 少 是 1， 所 以 在 单个 转移 的 编码 中 ， 没 有 两 个 以 上 连续 的 1。 
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整个 TM M 的 编码 由 转移 的 所 有 编码 组 成 ， 按 照 某 种 顺序 排列 ， 用 成 对 的 1 分 隔 : 
Ci11C211…Cwil1C， 


其 中 每 个 Ci 都 是 MWM 的 一 个 转移 的 编码 。 


例 9.1 设 讨论 的 TM 是 
M = ({9i,92,93},{0, 1}, {0, 1, B}, 0, qi, B, {q2} ) 
6 包括 规则 : 
0(qi, 1) = (q3, 0, R) 
0(q3, 0) = (qi, 1, R) 
0(gq3, 1) = (92, 0, R) 
0(93, B) = (q;, 1, 1) 
其 中 每 条 规则 的 编码 分 别 是 : 
0100100010100 
0001010100100 
00010010010100 
0001000100010010 


例如 ， 第 一 条 规则 可 以 写成 6(qi, X2) = (gj, 和, D;)， 因 为 1 = X%》%，0 =XX， 且 R = D;,。 因 此 ， 如 上 所 

示 ， 这 条 规则 的 编码 是 0110?10310110?。M 的 编码 是 
01001000101001100010101001001100010010010100110001000100010010 

注意 ，M 有 许多 其 他 的 可 能 编码 。 具 体 地 说 ， 可 以 用 4! 种 顺序 中 任意 一 种 来 列 出 这 四 个 转移 的 

编码 ， 这 样 就 给 出 M 的 24 种 编码 。 口 


在 9.2.3 节 中 ， 将 会 需要 编码 由 TM 和 串 组 成 的 有 序 对 (CM, w)。 对 于 这 个 有 序 对 使 用 这 样 的 编 
码 : M 编 码 后 面 接着 111， 再 后 面 接着 w。 注 意 ， 没 有 TM 的 有 效 编码 可 以 包含 连续 三 个 1， 所 以 
可 以 确保 111 的 首次 出 现 把 M 的 编码 与 w 分 开 。 例 如 ， 如 果 M 是 例 9.1 的 TM，w 是 1011， 则 (M, w) 
的 编码 就 是 在 例 9.1 末 尾 所 示 的 串 后 面 接着 1111011。 


9.1.3 对 角 化 语言 


在 9.1.2 节 中 编码 了 图 灵机 ， 所 以 现在 有 了 Mi ( 即 “ 第 i 个 图 灵机 ”) 的 具体 概念 : TM M; 的 编 
码 是 第 ;个 二 进 制 串 wi。 许 多 整数 根本 不 对 应 任何 TM。 例 如 ，11001 不 以 0 开头 ， 而 
0010111010010100 有 三 个 连续 的 1。 如 有 果 wi 不 是 有 效 的 TM 编码 ， 则 将 认为 Mi 是 一 台 具 有 一 个 状 
态 但 没有 转移 的 TM。 也 就 是 说 ， 对 于 这 些 i 值 ，M; 是 一 台 在 任何 输入 上 都 立即 停机 的 TM。 因 此 ， 
如 霖 wi 不 是 有 效 的 TM 编码 ， 则 L(Mi) 是 名。 

现在 ， 可 以 做 出 一 个 至 关 重 要 的 定义 。 


yy 这 言 Ly， 即 对 角 化 语言 ’ 是 使 得 wi 不 属于 L(M) 的 串 w; 的 集合 。 


,as 


也 就 是 说 ， 当 给 定 w 作 为 输入 时 ， 编 码 为 w 的 TM M 不 接受 这 个 输入 ，Ls 就 由 这 样 的 串 w 组 成 。 

如 果 考 虑 图 9-1， 就 能 明白 把 称 为 “对 角 化 ”语言 的 原因 。 这 个 表 说 明 ， 对 于 所 有 的 许 Qj， 
TM M; 是 否 接 受 输入 串 w;，1 意 味 着 “是 ， 接 受 ”，0 意 味 着 “ 否 ， 不 接受 ””。 可 以 认为 ， 第; 行 
是 语言 L(Mi) 的 特征 向 量 ， 即 这 行 中 的 1 表示 属于 这 个 语言 的 串 。 

对 角 线 的 值 说 明 Mi; 是 否 接 受 w;。 为 了 构造 Lz， 把 对 角 线 取 补 。 
例如 ， 假 如 图 9-1 是 正确 的 表 ， 则 取 补 的 对 角 线 应 当 以 1, 0, 0， 

0, … 开 头 。 因 此 ，Ls 应 当 包 含 w1 = s， 而 不 包含 从 w 到 w4 的 串 ， ; 
这 三 个 串 是 0, 1,00， 依 此 类 推 。 | 
把 对 角 线 取 补 来 构造 一 个 语言 的 特征 向 量 ， 这 个 语言 不 可 能 
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在 任何 行 中 出 现 ， 这 个 技巧 称 为 对 角 化 。 对 角 化 起 作用 ， 是 因为 oh 
对 角 线 的 补 本 身 是 描述 某 个 语言 ( 即 Ls) 成 员 性 的 特征 向 量 。 这 对 角 线 
个 特征 向 量 与 图 9-1 所 示 的 每 一 行 都 在 某 一 列 上 不 同 。 因 此 ， 对 oo 
角 线 的 补 不 可 能 是 任何 图 灵机 的 特征 向 量 。 pi 


9.1.4 证 明 Lg 非 递归 可 枚 举 


在 关于 特征 辣 量 和 对 角 化 的 上 述 直 觉 的 引导 下 ,现在 将 要 形式 化 地 证 明 一 个 关于 图 灵机 的 
基本 结 采 : 不 存在 接受 语言 Ly 的 图 灵机 。 


定理 9.2 Li 不 是 递归 可 枚 举 语言 。 也 就 是 说 ， 不 存在 接受 语言 [的 图 灵机 。 

证 明 假设 对 于 某 个 TM M，Ls 是 L(M)。 因 为 L4 是 字母 表 {0, 1} 上 的 语言 ， 所 以 M 应 当 在 已 
经 构造 的 图 灵机 表 中 ， 因 为 这 个 表 包 含 了 具有 输入 字母 表 {0, 1} 的 所 有 TM。 因 此 ，M 至 少 有 一 
个 编码 ， 比 如 i; 也 就 是 说 ，M = Mi。 

现在 ， 询 问 w; 是 否 属于 La。 

* 如 末 wi 属 于 La 则 Mi 接受 w;。 但 是 ， 根 据 玉 的 定义 ，wi 不 属于 Ls ， 因 为 只 包含 使 得 Mi; 不 

接受 wi 这 样 的 wi。 

* 同样 ， 如 果 wi 不 属于 Lz， 则 Mi 不 接受 w:。 因 此 ， 根 据 L 的 定义 ，wi 属 于 La。 
wi 不 能 既 属于 Ls 又 不 属于 L4， 所 以 结论 是 : M 存 在 这 个 假设 包含 矛盾 。 也 就 是 说 ，L 不 是 递归 可 
枚 举 语言 。 口 


9.1.5 习题 
习题 9.1.1 下面 所 示 是 什么 串 : 


* aA) W372 
b) wio? 


习 通 9.1.2 写 出 图 8-9 中 的 图 灵机 的 一 种 可 能 编码 。 


: 习题 9.1.3 这 里 是 两 个 语言 的 定义 ， 虽 然 这 些 语言 与 4 类似, 但 是 却 与 4 不 同 。 对 于 每 个 语 


日 ”应 当 注 意 ， 实 际 的 表 一 点 也 不 像 这 个 图 所 示 的 表 。 所 有 的 小 整数 都 不 表示 有 效 的 TM 编码 ， 因 此 都 表示 没有 移 
动 的 平凡 TM， 所 以 这 个 表 的 顶 上 几 行 其 实 都 是 清一色 的 0。 


言 ， 使 用 对 角 化 类 型 的 论证 来 证 明 这 个 语言 不 能 被 图 灵机 所 接受 。 注 意 ， 不 能 基于 对 角 线 本 身 
来 发 展 论证 ， 而 必须 在 图 9-1 所 示 和 矩阵 中 找 出 另 一 个 无 穷 的 点 序列 。 
* a) 所 有 使 得 M2; 不 接受 wi 的 wi 的 集合 。 
b) 所 有 使 得 Mi 不 接受 wz; 的 wi 的 集合 。 

! 习题 9.1.4 ”仅仅 考虑 了 具有 输入 字母 表 {0, 1} 的 图 灵机 。 假 设想 要 给 无 论 什 么 输入 字母 表 的 
所 有 图 灵机 都 指派 整数 。 这 是 不 太 可 能 的 ， 因 为 虽然 状态 或 非 输 入 带 符 号 的 名 称 是 任意 的 ， 但 
是 具体 的 输入 符号 却 是 有 影响 的 。 例如 , 语言 {0"1"1n 宇 1} 和 {a"b"1n 宇 1} 尽 管 在 某 种 程度 上 相似 ， 
但 却 不 是 相同 的 语言 ， 所 以 被 不 同 的 TM 所 接受 。 但 是 ， 可 以 假设 : 所 有 TM 输入 字母 表 都 是 从 
无 穷 符 号 集合 {a1, az, …} 中 挑选 的 。 说 明 如 何 可 以 给 所 有 这 样 的 图 灵机 都 指派 一 个 整数 ， 这 些 图 
灵机 都 用 这 些 符 号 的 有 穷 子 集合 来 作为 输入 字母 表 。 


9.2 是 递归 可 枚 举 但 不 可 判定 的 问题 


现在 ,已 经 看 到 了 一 个 为 任何 图 灵机 所 不 接受 的 问题 ， 即 对 角 化 语言 Lz。 下 一 个 目标 是 : 
把 递归 可 枚 举 (RE) 语言 ( 即 TM 所 接受 的 语言 ) 的 结构 细 分 成 两 类 。 第 一 类 对 应 着 通常 认为 
征 算 法 的 那些 语言 ， 这 些 语言 各 自 都 拥有 一 台 图 灵机 ， 这 人 台 图 灵机 不 仅 识别 这 个 语言 ， 而 且 还 
在 已 经 判定 了 输入 串 不 属于 这 个 语言 时 发 出 通知 。 这 样 的 图 灵机 最 终 无 论 是 否 到 达 接 受 状 态 ， 
最 终 总 是 停机 。 

第 一 类 语言 由 任何 具有 停机 保证 的 图 灵机 都 不 接受 的 RE 语言 组 成 。 这 些 语言 以 不 方便 的 方 
式 被 接受 ， 如 果 输 入 属于 语言 ， 则 最 终 知 道 这 个 结论 ， 但 如 果 输 入 不 属于 语言 ， 则 图 灵机 可 以 
死 循环 ， 将 永远 不 能 肯定 最 终 不 接受 这 个 输入 。 正 如 将 要 看 到 的 ， 这 种 类 型 的 语言 的 一 个 例子 
是: 使 得 TM M 接 受 输入 w 的 一 些 编码 对 (M, mw) 的 集合 。 


9.2.1 .递归 语言 


如 条 对 于 某 个 图 灵机 AM, 区 = L(M)， 使 得 : 

1. 如 采 w 属 于 LL， 则 MM 接受 (因此 M 停 机 )。 

2. 如 采 w 不 属于 ， 则 M 最 终 停 机 ， 但 MM 永远 不 进入 接受 状态 。 
则 说 语言 L 是 递归 的 。 这 种 类 型 的 TM 对 应 着 “算法 ”的 一 种 非 形 式 化 概念 ， 即 总 是 终止 并 产生 
答案 的 、 有 确切 定义 的 步骤 序列 。 如 果 像 通常 那样 ， 认 为 语言 Z 是 “问题 ">， 那 么 若是 递归 语言 ， 
则 问题 L 称 为 可 判定 的 ， 若 LL 不 是 递归 语言 ， 则 ZL 称 为 不 可 判定 的 。 

解答 一 个 问题 的 算法 的 存在 性 或 不 存在 性 ， 通 常 比 解答 这 个 问题 的 某 台 TM 的 存在 性 更 加 重 
要 。 因 为 前 面 说 过 ， 不 保证 停机 的 图 灵机 可 能 不 能 给 出 足够 的 信息 ， 来 最 终 得 出 结论 说 : 一 个 串 
不 属于 这 个 语言 ， 所 以 在 某 种 程度 上 ， 这 些 TM 没 有 “解答 问题 ”。 因 此 ， 把 问题 或 语言 划分 成 可 
判定 的 (算法 解答 的 问题 ) 与 不 可 判定 的 ， 比 划分 递归 可 枚 举 语言 (具有 某 种 类 型 TM 的 语言 
与 非 递 归 可 枚 举 语言 (根本 没有 TM 的 语言 ) 更 加 重要 。 图 9-2 说 明 在 这 三 个 语言 类 之 间 的 关系 : 

1. 递归 语言 。 

2. 递 归 可 枚 举 但 非 递归 的 语言 。 

3. 非 递归 可 枚 举 〈 非 RE) -语言 。 
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图 9-2 递归 语言 、RE 语 言 以 及 非 RE 语 言 之 间 的 关系 


已 经 正确 地 定位 了 非 RE 语 言 LH， 还 说 明了 语言 L.,， 即 “通用 语言 "， 不 久 将 证 明 : 虽然 是 
RE， 但 L 不 是 递归 的 。 


为 何 用 “递归 的 ”? 


如 今 的 程序 员 都 熟悉 递归 函数 。 但 是 这 些 递归 函数 似乎 与 总 是 停机 的 图 灵机 没有 任何 
关系 。 更 糟糕 的 是 ， 相 反 的 概念 ( 非 递 归 的 或 不 可 判定 的 ) 是 指 不 能 被 任何 算法 所 识别 的 
那些 语言 ， 但 是 习惯 认为 ,“ 非 递归 的 ”是 指 那 些 简 单 到 不 需要 递归 函数 调用 的 计算 。 

术语 “递归 的 ， 作 为 “可 判定 的 ”同义词 ， 可 以 追根 渊源 到 数学 ， 因 为 在 计算 机 之 前 
这 个 术语 就 存在 了 。 后 来 ， 基 于 递归 (不 是 迭代 或 循环 ) 的 对 计算 的 形式 化 ， 被 普遍 用 来 
作为 计算 的 记号 。 这 些 记号 与 函数 式 程序 设计 语言 (比如 LISP 或 ML) 的 计算 有 几 分 相似 ， 


这 里 将 不 讨论 这 些 记号 。 在 这 种 意义 下 ， 说 一 个 问题 是 递归 的 ， 就 具有 肯定 意义 :“ 这 个 
问题 足够 简单 ， 可 以 写 递归 函数 来 解答 这 个 问题 ， 并 且 这 个 函数 总 是 终止 >。 这 恰好 是 这 
个 术语 当今 所 包含 的 意思 ， 与 图 灵机 有 联系 。 

术语 “递归 可 枚 举 "， 可 以 追根 溯源 到 同样 一 族 概念 。 一 个 函数 可 以 按照 某 种 顺序 来 列 
举 语言 的 所 有 成 员 ， 也 就 是 说 ， 这 个 函数 可 以 “ 枚 举 ” 这 些 成 员 。 可 以 让 其 成 员 按照 某 种 
顺序 列举 出 来 的 语言 ， 与 被 某 个 TM 所 接受 的 语言 是 相同 的 ， 虽 然 TM 可 能 在 不 接受 的 输入 
上 死人 循环 。 





9.2.2 递归 语言 和 递归 可 枚 举 语言 的 补 


在 证 明 一 些 语言 属于 图 9-2 第 二 个 环 ( 即 是 RE 但 不 是 递归 的 ) 方面 ， 得力 的 工具 是 考虑 这 个 
语言 的 补 。 我 们 将 要 证 明 : 递归 语言 对 于 补 是 封闭 的 。 因 此 ， 如 果 一 个 语言 是 RE 但 ZL 的 补 工 
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不 是 RE， 则 可 以 知道 不 可 能 是 递归 的 。 因 为 假如 LL 是 递归 的 ， 则 工 也 应 当 是 递归 的 ， 因 此 肯定 
是 RE。 现 在 证 明 递 归 语 言 的 这 个 重要 封闭 性 。 


定理 9.3 ”如果 Z 是 递归 语言 ， 则 工 也 是 递归 语言 。 
证 明 对 于 某 个 总 是 停机 的 TM M, 设 L=L(M)。 通过 图 9-3 所 示 的 构造 ,来 构造 一 个 TM M ， 
使 得 工 = L( M)。 也 就 是 说 ，M 的 行为 完全 类 似 于 M。 但 是 ，M 经 过 如 下 修改 以 产生 M : 

1. M 的 接受 状态 都 变 成 M 的 非 接 受 状态 ， 这 些 状态 都 没有 转移 ， 即 在 这 些 状 态 中 ，M 将 停 
机 不 接受 。 

2. M 有 一 个 新 的 接受 状态 r; 没有 从 7 出 发 的 转移 。 

3. 对 于 使 得 M 没 有 转移 ( 即 M 停 机 不 接受 ) 的 M 的 非 接 受 状态 和 MM 的 带 符 号 的 每 种 组 合 ， 都 
添加 一 个 到 接受 状态 r 的 转移 。 





图 9-3 接受 一 个 递归 语言 的 补 的 一 台 TM 的 构造 
由 于 M 保 证 停机 ， 所 以 知道 M 也 保证 停机 。 而 且 ， M 恰好 接受 M 所 不 接受 的 串 。 因 此 M 接 


受 于 。 


L] 


关于 语言 的 补 ， 有 另 一 个 重要 事实 ， 这 个 事实 进一步 限制 了 在 图 9-2 的 示意 图 中 ， 一 个 语言 
和 这 个 语言 的 补 可 以 落 在 何 处 。 把 这 个 限制 陈述 在 下 一 个 定理 中 。 


定理 9.4 ”如 果 一 个 语言 C 和 这 个 语言 的 补 都 是 RE， 则 Z 是 递归 的 。 注 意 ， 根 据 定理 9.3， 工 
也 是 递归 的 。 

证 明 这 个 证 明 如 图 9-4 所 示 。 设 L = LM1) 且 LL = COM2)。TM M 平 行 地 模拟 Mi 和 AM。 可 以 设 
M 是 2 带 TM， 然 后 把 M 转 化 成 1 带 TM， 让 这 个 模拟 既 容 易 又 明显 。M 的 一 条 带 模拟 MI 的 带 ，M 的 
另 一 条 带 模拟 M2 的 带 。Mi 和 M2 的 状态 分 别 是 M 的 状态 的 一 个 分 量 。 





图 9-4 模拟 接受 一 个 语言 及 其 补 的 两 个 TM 


CO 
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an ww ww ROY ， 
如 采 M 的 输入 w 属 于 L， 则 Mi 最终 将 接受 。 如 果 这 样 ， 则 MM 接受 并 且 停 机 。 如 果 w 不 属于 L， 
则 w 属 于 工 ， 所 以 M2 最 终 将 接受 。 当 MM 接受 时 ，M 停 机 不 接受 。 因 此 ， 在 所 有 输入 上 M 都 停机 ， 
L(MM) 恰 好 是 L。 因 为 M 总 是 停机 ， 且 L(M) =L， 所 以 结论 是 L 是 递归 的 。 女 


可 以 把 定理 9.3 和 定理 9.4 总 结 如 下 。 在 图 9-2 示 意图 中 , 语言 L 及 其 补 工 的 9 种 可 能 安排 方式 
中 ， 只 有 下 列 4 种 是 可 能 的 : 

1. 工 和 工 都 是 递归 的 ， 即 两 者 都 在 内 环 中 。 

2.L 和 工 都 不 是 RE， 即 两 者 都 在 外 环 中 。 

3.L 是 RE 但 不 是 递归 的 ， 工 不 是 RE， 即 一 个 在 中 环 中 ; 另 一 个 在 外 环 中 。 

4. 工 是 RE 但 不 是 递归 的 ，L 不 是 RE; 即 与 (3) 一 样 ， 但 L 和 工 互 换 。 

在 上 述 结论 的 证 明 中 ， 定 理 9.3 消 除了 下 面 这 种 可 能 性 : 一 个 语言 (LZ 或 工 ) 是 递归 的 ,而 
即 一 个 语言 属于 其 他 两 类 之 一 。 定 理 9.4 消 除了 下 面 这 种 可 能 性 ， 两 个 语言 都 是 RE， 但 都 不 是 递 
归 的 。 


例 9.5 ”作为 一 个 例子 ， 考 虑 语言 Ls ， 已 知 L4 不 是 RE。 因 此 ， 支 不 可 能 是 递归 的 。 但 是 有 
两 种 可 能 ; 要 么 五 是 非 RE， 要 么 五 是 RE 但 不 是 递归 的 。 事 实 上 是 后 者 。 : 

元 是 使 得 Mi 接受 w; 的 串 wi 的 集合 。 这 个 语言 类 似 于 通用 语言 L.，L, 由 所 有 这 样 的 CM, w) 对 
组 成 ， 使 得 M 接 受 w， 将 要 在 9.3 节 中 证 明 : 已 是 RE。 同 样 的 论证 可 以 用 来 证 明 ， 元 是 RE。 0 


9.2.3 通用 语言 


在 8.6.2 市 中 ， 已 经 非 形式 化 地 讨论 过 图 灵机 如 何 可 以 用 来 模拟 装 入 了 任意 程序 的 计算 机 
也 就 是 说 ， 单 个 的 图 灵机 可 以 用 来 作为 “存储 程序 的 计算 机 ”， 从 一 条 或 多 条 带 上 来 获取 程序 和 
数据 ， 输 入 就 放 在 这 些 带 上 。 在 本 节 中 ， 将 要 更 加 形式 化 地 重复 这 个 思想 ， 这 种 形式 化 来 自 于 
把 图 灵机 说 成 是 已 存储 的 程序 的 表示 。 

定义 L，( 即 通用 语言 ) 是 这 样 一 些 二 进 制 串 的 集合 ， 这 些 二 进 制 串 是 用 9.1.2 节 记号 编码 的 
有 序 对 (M, w)， 使 得 w 属 于 LCM)， 其 中 M 是 具有 二 
进 制 输入 字母 表 的 TM，w 是 (0 + 1)* 中 的 串 。 也 就 
是 说 ，L 是 表示 一 台 TM 和 这 台 TM 所 接受 的 输入 的 
一 些 串 的 集合 。 我 们 将 要 证 明 : 存在 TM U， 通 党 
称 为 通用 图 只 机 ， 使 得 L, = L(U)。 因 为 0 的 输入 是 
二 进 制 电 ， 所 以 U 其 实 是 二 进 制 输入 图 灵机 的 列表 ”输入 
中 的 某 个 M;， 在 9.1.2 节 中 发 展 了 这 个 列表 。 

按照 图 8-22 的 思路 ， 把 U 描 述 成 多 带 图 灵机 ， 
这 是 最 容易 的 。 在 U 的 情形 中 ，M 的 转移 和 串 w 在 
开始 时 都 保存 在 第 一 条 带 上 。 第 二 条 带 将 用 来 保存 
所 模拟 的 M 的 带 ， 使 用 与 M 的 编码 相同 的 格式 ， 也 
就 是 说 ，M 的 带 符号 X 将 表示 成 0， 带 符号 用 单个 1 
分 隔 。V 的 第 三 条 带 保 存 W 的 状态 ， 状 态 %i 表示 成 ; 图 9-5 一 台 通 用 图 灵机 的 组 织 






M 的 状态 000 ，…， 0BB *…* 
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个 0。 邵 的 草图 在 图 9-5 中 。 
M 的 操作 可 以 小 结 如 下 : \ 
1. 检查 输入 ， 以 确保 M 的 编码 是 某 个 TM 的 合法 编码 。 如 果 不 是 ， 则 UU 停 机 不 接受 。 因 为 假 
设 了 无 效 编码 表示 没有 移动 的 TM， 并 且 这 样 的 TM 不 接受 任何 输入 ， 所 以 这 个 动作 是 正 
确 的 。 
2. 初始 化 第 二 条 带 ， 使 之 以 编码 的 形式 包含 输入 w。 也 就 是 说 ， 对 于 w 的 每 个 0， 在 第 二 条 
带 上 写 上 10， 对 于 mw 的 每 个 1， 在 第 二 条 带 上 写 上 100。 注 意 ， 在 M 的 被 模拟 带 上 的 空格 
(这 些 空格 用 1000 表 示 ) ， 其 实 将 不 出 现在 第 二 条 带 上 ， 除 了 w 使 用 的 单元 之 外 ， 所 有 单元 
都 将 包含 U0 的 空格 。 但 是 ，U 知 道 ， 假 如 U 在 寻找 MM 的 被 模拟 符号 ， 并 找到 U 自 身 的 空格 ， 
则 UU 必须 把 这 个 空格 换 成 序列 1000， 以 模拟 MM 的 空格 。 
3. 把 0 (M 的 初始 状态 ) 写 在 第 三 条 带 上 ， 把 0 的 第 二 条 带 的 带头 移动 到 第 一 个 被 模拟 单元 。 
4. 为 了 模拟 M 的 一 步 移动 ，U 在 自己 的 第 一 条 带 上 查找 0i10710*10'10”, 使 得 0i 是 带 3 上 的 状态 ， 
0i 是 在 带 2 上 从 U 扫 描 的 位 置 开始 的 M 的 带 符号 。 这 个 转移 是 MM 下 一 步 将 进行 的 转移 。U 应 
该 完成 以 下 操作 
(a) 把 带 3 的 内 容 改 成 0f;， 也 就 是 说 ， 模 拟 M 的 状态 改变 。 为 了 这 样 做 ，U 首 先 把 带 3 上 所 
有 0 都 改 成 空格 ， 然 后 把 % 从 带 1 复 制 到 带 3 上 。 

(b) 把 带 2 上 0 换 成 0.， 也 就 是 说 ， 改 变 M 的 带 符 号 。 如 有 果 需 要 增 减 空间 〈 即 ; 尝 轧 ， 则 用 草 
稿 带 和 8.6.2 证 的 平移 技术 来 调整 空间 。 

(c) 根据 是 否 m = 1 ( 疝 左 移动 ) 或 m = 2 (向 右 移动 )， 把 带 2 上 带头 分 别 疝 左 或 右 移 到 下 
一 个 1 的 位 置 。 因 此 ，U 模 拟 M 向 左 或 向 右 移动 。 

5. 如 果 M 设 有 与 所 模拟 的 状态 和 人 带 符号 匹配 的 转移 ， 则 在 (4) 中 将 找 不 到 转移 。 因 此 ，M 在 
所 模拟 格局 中 停机 ，U 必 须 同样 停机 。 

6. 如 果 M 进 入 接受 状态 ， 则 上 0 接受 。 

以 这 样 的 方式 ，U 在 w 上 模拟 M。U0U 接 受 编码 对 (M,w)， 当 且 仅 当 M 接 受 w。 


更 有 效 的 通用 TM 


U 对 M 的 一 种 有 效 的 模拟 【这 种 模拟 可 能 不 要 求 在 带 上 平移 符号 )， 训 以 让 U 首 先 确定 
M 使 用 的 带 符号 数 。 如 果 存 在 从 2-1+1 到 2: 之 间 这 么 多 个 符号 ， 则 U 可 以 用 位 二 进 制 编码 来 


惟一 表示 不 同 的 带 符 号 。 可 以 用 k 个 U 的 带 单元 来 模拟 M 的 带 单 元 。 为 了 让 模拟 变 得 更 加 容 
易 ，U 可 以 改写 M 的 给 定 转移 ， 以 便 用 固定 长 度 二 进 制 编码 来 代替 已 经 介绍 过 的 可 变 长 度 
一 进 制 编码 。 





9.2.4 通用 语言 的 不 可 判定 性 


现在 可 以 展示 一 个 问题 ， 这 个 问题 是 RE 但 不 是 递归 的 ， 这 就 是 语言 DL.。 知 道 L 是 不 可 判定 
的 ( 即 不 是 递归 语言 ) 比 先前 发 现 Ls 不 是 RE 在 许多 方面 都 更 有 价值 。 原 因 在 于 ， 从 世 到 一 个 间 
题 P 的 归 约 ， 无 论 P 是 否 是 RE， 都 可 以 用 来 证 明 不 存在 解答 P 的 算法 。 但 是 ， 从 Ls 到 P 的 归 约 ， 只 


(人 
~ 
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有 当 P 不 是 RE 时 ， 才 是 可 能 的 ， 所 以 Zu 不 能 用 来 证 明 下 面 这 样 一 些 问题 的 不 可 判定 性 ， 这 些 问 
题 坪 RE 但 不 是 递归 的 。 另 一 方面 ， 如 果 想 要 证 明 一 个 问题 不 是 RE， 则 只 能 用 Ly， 是 没有 用 的 ， 
因为 是 RE。 


停机 问题 
人 们 第 党 昕 说 ， 图 灵机 的 停机 问题 是 一 个 与 5 类 似 的 问题 ， 即 一 个 是 RE 但 不 是 递归 的 
问题 。 事 实 上 ,A. M. 图 灵 的 最 初 的 图 灵机 是 以 停机 方式 而 不 是 以 终结 状态 方式 来 接受 的 。 


对 于 TM M， 可 以 定义 H(M) 是 这 样 一 些 输入 w 的 集合 : 使 得 在 给 定 输入 w 时 ， 无 论 M 是 否 接 
受 w，M 都 停机 。 于 是 ， 停 机 问题 就 是 使 得 w 属 于 H(M) 的 一 些 有 序 对 (M, w) 的 集合 。 这 个 问 
题 (或 语言 ) 是 另 一 个 是 RE 但 不 是 递归 的 问题 的 例子 。 





定理 9.6 乃 是 RE 但 不 是 递归 的 。 

证 明 ”在 9.2.3 节 中 ,证 明 过 ZL, 是 RE。 假 设 L, 是 递归 的 。 于 是 根据 定理 9.3，L, 的 补 元 也 是 
递归 的 。 但 是 ， 如 果 有 一 个 TM M 接 受 工 ， 则 可 以 构造 一 个 TM 来 接受 天 (用 下 面 解释 的 方法 )。 
己 知 [不 是 RE， 所 以 工 是 递归 的 这 个 假设 包含 着 矛盾 。 

假设 L0W) = L,。 如 图 9-6 所 示 ， 可 以 把 TM M 修 改 成 TM M'，M' 接 受 Ly 如 下 。 





图 9-6 从 大 到 云 的 归 约 


1 给 定 串 w 作 为 输入 ， 在 检查 了 w 中 不 含 连续 的 三 个 1 之 后 (车 w 含 111， 则 这 即 拒绝 w)，M' 
把 输入 改 成 w111w。 读 者 可 以 (作为 练习 ) 写 一 个 TM 程 序 来 在 单条 带 上 完成 这 个 步 又。 
不 过 ， 可 以 这 样 做 的 一 个 容易 的 论证 是 用 第 二 条 带 复制 w， 然后 把 2 带 TM 转 化 成 1 带 T™M.。 

2.M' 在 新 的 输入 上 模拟 M。 如 果 w 是 前 述 枚 举 中 的 w; ， 则 MM 确定 M; 是 否 接受 w。 M 接 受 工 ， 
所 以 MM 接受 当 且 仅 当 Mi 不 接受 wi; 即 wi 属 于 La。 

因此 ，M 接 受 w 当 且 仅 当 w; 属 于 Lz。 根 据 定理 9.2， 可 以 知道 M' 不 可 能 存在 ， 所 以 结论 是 : LL, 不 是 
递归 的 。 | 口 


9.2.5 习题 


习题 9.2.1 ”证明 : 停机 问题 是 RE 但 不 是 递归 的 。 停 机 问题 是 一 些 (M, w) 有 序 对 的 集合 ， (M, 
w) 使 得 当 给 定 输入 w 时 ，M 停 机 【无 论 接受 或 不 接受 ) 。( 参 看 9.2.4 节 中 关于 “停机 问题 ”的 方 
框 。) 

习题 9.2.2 ”在 9.2.1 节 “为 何 用 “递归 的 ' ? ” 方 框 中 提示 过 ， 存 在 着 “递归 函数 ” 的 概念 ， 
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这 个 概念 与 图 灵机 竞争 作为 什么 是 可 以 计算 的 模型 。 在 本 题 中 ， 将 要 探讨 递归 函数 记号 的 一 个 
例子 。 一 个 递归 函数 就 是 用 有 穷 多 条 规则 定义 的 一 个 函数 每 条 规则 都 为 某 些 参 数 说 明 函 数 F 
的 值 ， 这 种 说 明 可 以 使 用 变 元 、 非 负 整 数 常数 、 后 继 (加 1) 函数 、 函 数 F 本 身 以 及 通过 函数 合 [390 
成 从 这 些 对 象 构造 出 的 表达 式 等 。 例 如 ， 阿 克 受 函数 是 由 下 列 规则 定义 的 : 

1.4(0,y) =1， 对 于 任意 的 y>>0。 

2.A(1, 0 = 

3.A(x; 0) =x+2， 对 于 任意 的 Xx 宇 2。 

4.A(x+1, y+1) = A(A(x, y+1), y)， 对 于 任意 的 x 二 0 和 和 y 宇 0。 
回答 下 列 问题 

* a) 求 4(2, 1) 的 值 。 

! b) A(x, 2) 是 x 的 什么 图 数 ? 

! c) 求 4(4, 3) 的 值 。 

习题 9.2.3 ” 非 形式 化 地 描述 枚 举 下 列 整 数 集合 的 多 带 图 灵机 ， 这 里 枚 举 的 意思 是 : 从 一 些 
空白 带 开始 ， 在 一 条 带 上 显示 10in1021…， 以 表示 和 集合 {i1, i2,……}。 

* a) 所 有 完全 平方 数 的 集合 {1,4,9,…}。 

b) 所 有 素数 的 集合 {2;3,5,7,11,…}。 

!! c) 所 有 使 得 Mi 接受 wi 的 i 的 集合 。 提 示 : 不 可 能 按照 数值 顺序 来 产生 所 有 这 些 i。 原 因 在 于 ， 
这 个 语言 ( 即 L) 是 RE 但 不 是 递归 的 。 事 实 上 ，RE 非 递归 语言 的 一 种 定义 就 是 : 可 以 
枚 举 这 些 语 言 ， 但 是 不 能 按照 数值 顺序 来 枚 举 。 枚 举 这 些 语言 的 根本 “技巧 ”在 于 ， 必 
须 在 所 有 w; 上 模拟 Mi， 但 是 不 允许 任何 Mi; 死 循 环 ， 因 为 一 旦 遇 上 某 个 Mi; 在 w 上 不 停机 ， 
那么 对 于 j 关 i，M; 的 死 循 环 就 阻止 了 尝试 任何 其 他 的 M;。 因 此 ， 必 须 以 分 成 轮 的 方式 操 
作 ， 在 第 i 轮 中 只 尝试 有 穷 多 个 M;， 并 只 尝试 有 穷 多 步 。 因 此 ， 每 轮 都 能 在 有 穷 时 间 内 完 
成 。 只 要 对 于 每 个 M; 和 每 个 步 数 ;都 存在 某 一 轮 ， 使 得 该 轮 将 要 模拟 Mi 至少 s 步 ， 则 最 终 
将 发 现 接 受 wi 的 每 个 Mi 并 枚 举 i。 

* 习题 9.2.4 设 L,L,…, 世 是 字母 表 > 上 语言 的 集合 ， 使 得 : 

1. 对 于 所 有 i 二 j，Li 阁 L= 多 ; 即 没有 串 同时 属于 这 两 个 语言 。 
2.LIUL2U…UL4= >*; 即 每 个 串 至 少 属于 这 些 语言 中 的 一 个 。 
3. 对 于 i= 1,2,…,k， 每 个 语言 L 都 是 递归 可 榴 举 有 的。 
证 明 : 这 些 语言 中 每 个 都 是 递归 的 。 
*! 习题 9.2.5 设 Z 是 递归 可 枚 举 的 并 设 世 是 非 RE。 考 虑 语言 
L'= {0w1w 属 于 L } U {1w1w 不 属于 L }。 
能 否 肯 定 地 说 L 或 其 补 是 递归 的 、RE 或 非 RE? 给 出 答案 的 理由 。 

! 习题 9.2.6 除了 在 9.2.2 闻 中 对 于 补 的 讨论 之 外 ， 还 设 有 讨论 过 递归 语言 或 RE 语言 的 封闭 性 。 
区 分 一 下 递归 语言 或 RE 语言 对 下 列 运 算是 否 封闭 。 可 以 给 出 非 形式 化 的 〈 但 清楚 的 ) 构造 来 证 
明 封 闭 。 

*a) 并 。 
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c) 连接 。 

d) 克 林 闭 包 ( 星 号 )。 
*# e) 同 态 。 

f) 逆 同 态 。 


9.3 与 图 灵机 有 关 的 不 可 判定 问题 


现在 将 要 使 用 语言 志和 Ze (已 知 这 两 个 语言 关于 可 判定 性 和 递归 可 枚 举 性 的 状况 ) 来 证 明 其 
他 的 不 可 判定 或 非 RE 语言 。 在 这 些 证 明 的 每 一 个 当中 都 要 利用 归 约 技术 。' 首 批 不 可 判定 问题 都 
与 图 灵机 有 关 。 事 实 上 ， 本 节 中 的 讨论 最 终归 结 为 “ 莱 斯 定理 ”的 证 明 ， 这 个 定理 提出 ; 图 灵 
机 的 任何 只 依赖 于 TM 所 接受 的 语言 的 非 平 凡 性 质 ， 都 一 定 是 不 可 判定 的 。9.4 节 将 研究 与 图 灵机 
和 图 灵机 的 语言 无 关 的 一 些 不 可 判定 问题 。 


9.3.1 归 约 


在 8.1.3 市 中 介绍 过 归 约 的 概念 。 一 般 说 来 ， 如 果 有 一 个 算法 把 间 题 P 的 实例 转化 成 问题 P， 
的 具有 相同 答案 的 实例 ， 则 说 Pi 归 约 到 P,。 可 以 使 用 这 个 证 明 来 证 明 P 至 少 有 Pi 那么 难 。 因此 ， 
如 有 果 P 不 是 递归 的 ， 则 Ps 不 可 能 是 递归 的 。 如 果 P1 是 非 RE， 则 PP 不 可 能 是 RE。 正 如 在 8.1.3 节 中 
提 到 过 的 那样 ， CN， 
而 不 是 相反 。 

如 图 9-7 所 示 ， 一 个 归 约 必须 把 P. 具 有 “是 ”回答 的 任何 实例 都 变 成 具有 “是 ”回答 的 实 
例 ， 必 须 把 P! 具 有 “ 否 ” 回 答 的 每 个 实例 都 变 成 Pp 具有 “ 否 ” 回 答 的 实例 .注音 ， 每 个 P 实 例 都 
是 一 个 或 多 个 己 实 例 的 目标 ， 这 并 不 重要 ， 事 实 上 ， 户 只 有 二 小 部 分 才 是 归 约 的 目标 ， 这 是 非 
常常 见 的 。 





2 P, 


图 9-7 把 肯定 实例 变 成 肯定 实例 且 把 否定 实例 变 成 否定 实例 的 归 约 


形式 化 地 说 ， 从 Pi 到 Ps 的 归 约 是 这 样 一 台 图 灵机 ， 这 台 图 灵机 把 写 在 带 上 的 一 个 P 实 例 作为 
箱 入 ， 停 机 时 在 带 上 有 一 个 P 实 例 。 在 实践 中 ， 一 般 将 描述 归 约 ， 似 乎 这 些 归 约 就 是 把 一 个 P， 
实例 作为 输入 ， 产 生 一 个 P 实 例 作 为 输出 的 计算 机 程序 。 图 灵机 与 计算 机 程序 的 等 价 性 允许 采 
用 任意 一 种 方式 来 描述 这 个 归 约 。 下 述 定理 强调 了 这 些 归 约 的 重要 性 ， 我 们 将 看 到 这 个 定理 的 
无 数 应 用 。 
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定理 9.7 如 果 存 在 从 Pi 到 P; 的 归 约 ， 那 么 : 

a) 若 P1 是 不 可 判定 的 ， 则 Pz 也 是 不 可 判定 的 。 

b) 若 已 是 非 RE， 则 忆 也 是 非 RE。 

证 明 ”首先 假设 Pl 是 不 可 判定 的 。 如 果 可 以 判定 Pp?， 则 可 以 把 从 Pi 到 P; 的 归 约 与 判定 P; 的 算 
法 组 合 起 来 ， 构 造 出 一 个 判定 Pi 的 算法 。 这 个 思想 如 图 8-7 所 示 。 更 详细 地 说 ， 假 设 给 定 PP 的 一 
个 实例 w。 对 w 使 用 归 约 算法 ， 这 个 算法 把 w 转 化 成 ;的 一 个 实例 x。 然 后 对 x 使 用 对 Pz 所 使 用 的 算 
法 。 如 果 这 个 算法 说 “是 ”， 则 x 属于 P，。 因 为 可 以 把 Pi 归 约 到 P，,，， 所 以 知道 1 对 于 w 回 舍 
“是 ”， 即 w 属 于 P1。 同 样 ， 如 果 x 不 属于 P，,， 则 w 不 属于 P1， 对 于 问题 “x 属于 P; 吗 ? ”所 给 出 的 
任何 回答 ， 也 是 对 “w 属 于 已 吗 ? ”的 正确 回答 。 

因此 就 与 已 是 不 可 判定 的 假设 发 生 了 矛盾。 结论 是 : 如 果 P1 是 不 可 判定 的 ， 则 P2 也 是 不 可 判 
定 的 。 

现在 考虑 (b) 部 分 。 假 设 : Pl 是 非 RE， 而 P 是 RE。 现 在 ， 有 一 个 算法 把 Pi 归 约 到 P，,,， 但 是 只 
有 一 个 过 程 来 识别 P2， 也 就 是 说 ， 存 在 一 台 TM, 如 果 这 台 图 灵机 的 输入 属于 P,， 则 说 “是 ”， 
但 如 果 输 入 不 属于 P,， 则 可 能 不 停机 。 如 同 (a) 部 分 那样 ， 从 Pi 的 一 个 实例 w 开 始 ， 用 归 约 算法 把 
w 转 化 成 P 的 一 个 实例 x。 然 后 对 x 使 用 Ps 的 TM。 如 有 果 x 被 接受 ， 则 接受 w。 

这 个 过 程 描述 了 一 台 接 受 的 语言 是 Pl 的 TM (可 能 不 停机 )。 如 果 w 属 于 P11， 则 x 属于 P,， 所 
以 这 个 TM 将 接受 w。 如 果 w 不 属于 P1， 则 x 不 属于 P,.。 此 时 ， 这 个 TM 既 可 能 停机 也 可 能 不 停机 ， 
日 肯定 不 会 接受 w。 因 为 假设 过 不 存在 接受 Pl 的 TM， 所 以 已 经 用 归 诬 法 证 明了 也 不 存在 接受 P， 
的 TM， 即 如 果 P1 是 非 RE， 则 Ps 也 是 非 RE。 口 


9.3.2 接受 空 语言 的 图 灵机 


作为 与 图 灵机 有 关 的 归 约 的 一 个 例子 ,研究 两 个 语言 ， 即 所 谓 L 和 Lne。 每 个 语言 都 由 二 进 
制 串 组 成 。 如 果 w 是 一 个 二 进 制 串 ， 则 在 9.12 节 的 枚 举 中 ，w 表 示 某 个 TM Mi。 

如 朵 L(Mi) = 名， 即 Mi 不 接受 任何 输入 ， 则 w 属 于 L。 因 此 ，L 是 由 所 有 接受 的 语言 为 空 的 编 
码 过 的 TM 组 成 的 语言 。 男 一 方面 ， 如 有 果 L(Mi ) 不 是 空 语言 ， 则 w 属 于 Le。 因此 ，Lw 是 由 所 有 至 
少 接受 一 个 输入 的 图 灵机 的 编码 组 成 的 语言 。 

在 下 面 的 讨论 中 ， 认 为 一 个 串 就 是 这 个 串 所 表示 的 图 灵机 ， 这 样 做 是 方便 的 。 因 此 ， 可 以 
把 刚刚 提 到 的 两 个 语言 定义 为 : 

eo.= {MIIUAM)=O} 

* Lne = { MIL(M)z OG} 
注意 ，L。 和 Ln 都 是 二 进 制 字 母 表 {0, 1} 上 的 语言 ， 并且 是 互补 的 。 下 面 将 要 看 到 ，Lw 是 这 两 个 
语言 中 “ 较 容易 的 ”一 个 ;Ze 是 RE 但 不 是 递归 的 。 另 一 方面 ， 己 是非 RE。 


定理 9.8 Li 是 递归 可 枚 举 的 。 
证 明 ”只 需 展示 一 个 接受 Zr 的 TM。 摘 述 一 个 非 确定 型 TM M，M 的 设计 图 如 图 9-8 所 示 ， 这 
是 最 容易 的 。 根 据 定理 8.11， 可 以 把 M 转 化 成 确定 型 TM。 
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猜测 的 w 





图 9-8 接受 Li 的 NTM 的 构造 


M 的 操作 如 下 : 
1. M 把 一 个 TM 编码 Mi; 作为 输入 。 
394 2. 使 用 非 确 定性 能 力 ，M 猜 测 M; 可 能 接受 的 输入 w。 

3. 1 检查 Mi 是 否 接受 w。 对 于 这 个 部 分 ，M 可 以 模拟 接受 五 的 通用 TM U. 

4. 如 霖 Mi 接受 w， 则 MM 接受 自身 的 输入 ， 即 Mi;。 
通过 这 各 方式， 如果; 接受 即使 一 个 串 ， 则 M 也 将 猜 到 这 个 串 (当然 ， 这 个 串 是 在 所 有 猜 到 的 
其 他 串 当中 ), 并 接受 Mi;。 但 如 果 LM;) = 名 ， 则 任何 猜测 w 都 不 能 导致 4 接受 ， 所 以 M 不 接受 Mi 。 
因此 ZL(M) = Ln。 口 


下 一 步 是 证 明 : Lo 不 是 递归 的 。 为 此 ， 把 L 归 约 到 L。。 也 就 是 说 ， 将 要 描述 一 个 算法 ， 这 
个 算法 把 输入 (M, w) 变 换 成 输出 M', 即 另 一 个 图 灵机 的 编码 ， 使 得 w 属 于 ZUM) 当 且 仅 当 ZCMD) 非 空 。 
换 句 话说 ，W 接 受 w% 当 且 仅 当 M' 至 少 接受 一 个 输入 。 这 个 技巧 就 是 ， 让 MX 忽略 自身 的 输入 ， 并 且 
在 输入 w 上 模拟 M。 如 果 M 接 受 ， 则 M' 接 受 自身 的 输入 ， 因 此 MM 接受 w 就 等 于 是 LM) 非 空 。 假如 
Lm 是 递 轨 的 ， 那 么 就 可 能 有 一 个 算法 来 区 分 M 是 否 接受 w: 构造 M' 并 看 看 是 否 LCM') = C。 


定理 9.9 Li 不 是 递归 的 。 

证 明 ”将 要 遵循 上 面 给 出 的 证 明 要 点 。 必 须 设计 一 个 算法 ， 这 个 算法 把 一 个 输入 变换 成 一 
个 TM M'， 这 个 输入 是 一 个 二 进 制 编码 有 序 对 (M, w)， 使 得 COMD) 关 纪 当 且 仅 当 M 接 受 输入 w。M 
的 构造 如 图 9-9 所 示 。 将 要 看 到 ， 如 果 M 不 接受 w， 则 M' 不 接受 任何 输入 ， 旭 L(M') = 名。 但 是 ， 
如 有 霖 MM 接受 w， 则 M' 接 受 每 个 输入 ， 因 此 L(M1) 肯 定 不 是 儿 。 





图 9-9 定理 9.9 中 从 (M,w) 构 造 的 TM M' 的 设计 图 ，M 接 受 任意 输入 当 且 仅 当 M 接 变 w 


395 把 M' 设 计 成 如 下 操作 : 
1.4 忽略 自身 的 输入 zx。 更 进一步 ，M' 把 自身 输入 换 成 表示 TM M 和 输入 串 w 的 那个 串 。 因 
为 M' 是 为 一 个 具体 的 有 序 对 (M, w) 而 设计 的 ， 这 个 有 序 对 具有 某 个 长 度 n， 所 以 可 以 把 Mf 
构造 成 具有 状态 序列 go, q1,…,q,， 其 中 qo 是 初始 状态 。 
(a) 对 于 i =0,1,.…,n— bb. 在 状态 g; 中 ， M'S TF (M, w) 编 码 的 第 i p 1 位 ， 进入 状态 gq;+1， 并 
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器 右 移动 。 
(b) 在 状态 q, 中 ，M' 向 右 移动 ， 在 必要 时 把 任何 非 空格 都 换 成 空格 (假如 MM' 的 输入 xEbn 长 ， 
这 些 非 空格 可 能 是 x 的 结尾 )。 

2. 当 M' 在 qn 中 到 达 一 个 空格 时 ，M' 使 用 类 似 的 一 组 状态 来 把 带头 重新 定位 到 带 的 左 端 。 

3. 现在， 利用 另外 的 状态 ，M' 在 当前 带 上 模拟 一 台 通 用 TM U。 

4. 如 采 U 接 受 ， 则 M' 接 受 。 如 果 U 永 不 接受 ， 则 M' 也 永 不 接受 。 

上 述 对 M' 的 描述 应 当 足 以 使 读者 相信 ， 可 以 设计 一 台 图 灵机 ， 这 台 图 灵机 把 M 的 编码 和 串 w 
变换 成 M' 的 编码 。 也 就 是 说 ， 存 在 一 个 算法 来 完成 从 LL, 到 LL 的 归 约 。 还 看 到 了 ， 如 果 MM 接 受 w， 
则 M' 接 受 原来 在 带 上 的 任何 输入 x。 曾 忽略 过 *， 这 个 事实 是 不 相关 的 ，TM 接 受 性 的 定义 说 ， 凡 
息 在 开始 操作 之 前 放 在 带 上 的 东西 ， 就 是 TM 接 受 的 东西 。 因 此 ， 如 果 M 接 受 w， 则 Mt 的 编码 属 
7 

反之 ， 如 有 果 M 不 接受 w， 则 无 论 W' 的 输入 是 什么 ，M 都 永 不 接受 。 因 此 ， 在 这 种 情况 下 ，M 
的 编码 不 属于 Ln。 通 过 从 M 和 w 构 造 M' 的 这 个 算法 ， 已 经 成 功 地 把 归 约 到 L。， 可 以 得 出 结论 . 
因为 ,不 是 递归 的 ， 所 以 La 也 不 是 递归 的 。 这 个 归 约 的 存在 性 足以 完成 本 证 明 。 但 是 ， 为 了 说 
明 这 个 归 约 的 影响 ， 将 要 把 这 个 论证 延伸 一 步 。 假 如 L 是 递归 的 ， 那 么 就 可 以 设计 二 的 一 个 算 
法 如 下 : 

1. 如 上 把 (WM, w) 转 化 成 TM M'。 

2. 使 用 这 个 假设 中 的 的 算法 来 区 分 是 否 LM') = 他。 如 果 是 ， 就 说 明 M 不 接受 w， 如 果 ZKMn 关 

名， 就 说 明 M 的 确 接 受 w。 
因为 根据 定理 9.6 可 知 ,对 于 二 ,不 存在 这 样 的 算法 ,所 以 从 Ls 是 递归 的 这 个 假设 已 经 得 出 了 矛盾 ， 
结论 是 : Ze 不 是 递归 的 。 歧 


现在 ,知道 了 L. 的 状况 。 假 如 L 是 RE， 则 根据 定理 9.4，L。 和 都 应 当 是 递归 的 。 根 据 定理 
9.9，Ze 不 是 递归 的 ， 所 以 结论 是 : 


定理 9.10 元. 不 是 RE。 口 
9.3.3 茉 斯 定理 与 递归 可 枚 举 语言 的 性 质 


像 L。 和 Ze 这 样 的 语言 是 不 可 判定 的 ， 这 个 事实 其 实 是 一 个 较 一 般 定理 的 一 个 特例 ,RE 语言 
的 所 有 非 平 凡 性 质 都 是 不 可 判定 的 ， 在 这 样 的 意义 下 : 一 台 图 灵机 不 可 能 识别 下 面 这 样 的 二 进 
制 串 ， 这 些 二 进 制 串 是 一 些 其 语言 具有 这 种 非 平凡 的 性 质 的 TM 的 编码 。RE 语 言 性 质 的 一 个 例 
于 是 :“ 这 个 语言 是 上 下 文 无 关 的 ”。 作 为 这 个 一 般 原理 (RE 语言 的 所 有 非 平凡 性 质 都 是 不 可 判 
定 的 ) 的 一 个 特例 ， 给 定 的 TM 是 否 接受 一 个 上 下 文 无 关 语言 是 不 可 判定 的 。 

RE 语言 的 一 个 性 质 只 不 过 是 RE 语言 的 一 个 集合 。 因 此 ， 是 上 下 文 无 关 的 这 个 性 质 在 形式 化 
上 就 是 所 有 CFL 的 集合 。 是 空 的 这 个 性 质 就 是 只 由 空 语言 组 成 的 集合 {@}。 

如 霖 一 个 性 质 是 空 的 ( 即 根本 没有 语言 满足 这 个 性 质 ) 或 者 这 个 性 质 是 所 有 的 RE 语言 ， 则 
说 这 个 性 质 是 平凡 的 。 否则， 这 个 性 质 是 非 平凡 的 。 


Cy 
o\ 
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志 


* 注 意 ， 空 性 质 (名 ) 与 这 个 性 质 是 一 个 空 语 言 ({ 儿 }) 是 不 同 的 。 


不 能 认为 语言 的 一 个 集合 就 是 这 些 语 言 本 身 。 原 因 在 于 ， 典 型 的 语言 (是 无 穷 的 ) 不 能 写 
成 一 个 有 穷 长 度 的 可 以 作为 TM 的 输入 的 串 。 更 恰当 的 说 法 是 ， 必 须 识别 接受 这 些 语言 的 图 灵 
机 ， 即 使 一 个 TM 接受 的 语言 是 无 穷 的 ， 这 个 TM 编码 本 身 也 是 有 穷 的 。 因 此 ， 如 果 了 是 RE 语言 
的 一 个 性 质 ， 则 语言 Lz 就 是 图 灵机 Mi 的 编码 的 集合 ， 使 得 L(Mi) 是 2 中 的 语言 。 当 谈 到 一 个 性 质 
2 的 可 判定 性 时 ， 意 思 就 是 语言 Zz 的 可 判定 性 。 


为 什么 问题 与 其 补 不 同 ? 


直 先 告诉 我 们 : 一 个 问题 与 这 个 问题 的 补 其 实 是 同样 的 问题 。 为 了 解答 其 中 一 个 ， 可 
以 使 用 男 一 个 的 算法 ， 在 最 后 一 步 把 输出 取 补 :“ 是 ”代替 “ 否 ”， 反 之 亦 然 。 只 要 这 个 问 
题 与 其 补 都 是 递归 的 ， 这 种 本 能 就 完 完全 全 是 正确 的 。 

但 是 ， 正 如 在 9.2.2 节 中 讨论 过 的 那样 ， 存 在 另外 两 种 可 能 性 。 首 先 ， 这 个 问题 与 其 补 
其 至 都 不 是 RE。 于 是 ， 任 何 种 类 的 TM 都 根本 不 能 解答 这 二 者 ， 所 以 在 某 种 意义 上 ， 这 二 
者 又 是 相似 的 。 但 是 ， 有 趣 的 情况 (以 L 和 Lc 为 典型 ) 是 当 一 个 是 RE 而 另 一 个 是 非 RE 时 。 


对 于 是 RE 的 这 个 语言 ， 可 以 设计 一 台 TM M， 这 个 TM 获 得 输入 w 并 找 出 w 属 于 语言 能 
原因 。 因 此 ， 对 于 Ze ， 给 定 一 台 TM M 作 为 输入 ， 让 设计 的 TM 寻 找 TM M 接 受 的 串 ， 一 旦 
找到 一 个 ， 就 接受 M。 如 果 M 是 一 台 接 受 空 语言 的 TM， 那 么 虽然 永远 不 能 肯定 地 知道 M 不 
属于 Ln ， 但 是 永 不 接受 M， 这 正 是 这 台 TM 的 正确 反应 。 

男 一 方面 ， 对 于 补 问题 L.，L 不 是 RE， 其 至 没有 办 法 接受 L 的 所 有 串 。 假 设 给 定 一 个 
串 M，M 是 一 台 语 言 为 空 的 TM。 可 以 检验 TM M 的 输入 ， 尽 管 也 许 永远 找 不 到 M 接 受 的 输 
入 ， 但 是 永远 也 不 能 肯定 不 存在 某 个 尚未 检验 的 、 这 个 TM 接 受 的 输入 。 因 此 ， 即 使 应 当 
接受 M， 也 可 能 永 不 接受 M。 





定理 9.11 〈 莱 斯 定理 ) RE 语言 的 每 个 非 平 几 性 质 都 是 不 可 判定 的 。 

证 明 设 2 是 RE 语言 的 一 个 非 平 凡 性 质 。 首 先 假设 : 必 ( 空 语言 ) 不 属于 2， 以 后 将 回来 讨论 
相反 的 情形 。 因 为 2 是 非 平凡 的 ， 所 以 一 定 存在 某 个 非 空 语言 Z 属 于 2。 设 1 是 一 个 接受 Z 的 TML。 

将 要 把 归 约 到 Los， 因此 证 明 Lz 是 不 可 判定 的 ， 因 为 是 不 可 判定 的 。 执 行 归 约 的 这 个 算 
法 用 一 个 有 序 对 (M,; w) 作 为 输入 ， 产 生 一 个 TM M'。M' 的 设计 如 图 9-10 所 示 ; 如 果 M 不 接受 w， 
则 LM) 是 必 ， 如 果 M 接 受 w， 则 LM') = 工 。 





图 9-10 莱 斯 定理 的 证 明 中 M' 的 构造 


M' 是 一 个 双 带 TM。 一 条 带 用 来 在 w 上 模拟 M。 记 住 ， 执 行 归 约 的 这 个 算法 被 给 定 M 和 w 作 为 
输入 ， 并 且 在 设计 MM' 的 转移 时 可 以 使 用 这 个 输入 。 因 此 ， 把 在 w 上 模拟 M 的 任务 “固化 到 ”M' 
中 ，M 不 必 在 自身 的 带 上 去 读 M 的 转移 。 
必要 时 ， 用 MM' 的 男 一 个 带 在 输入 xX 上 模拟 Mi。 同 样 ，Mi 的 转移 为 这 个 归 约 算法 所 知 ， 并 可 
固化 到 ”M' 的 转移 中 。 构 造 TM M' 来 完成 如 下 操作 : 
1. 在 输入 上 模拟 M。 注 意 ，w 不 是 M' 的 输入 ， 事实 上 ， 如 在 定理 9.8 证 明 中 那样 ，M' 在 一 条 
市 上 写 下 M 和 w， 并 在 这 个 有 序 对 上 模拟 通用 TM 7。 
2. 如 霖 MM 不 接受 w， 则 MM 停止 操作 。M' 永 不 接受 自身 输入 ， 所 以 L(M') = 名 。 因 为 假设 不 597 
属于 性 质 ?， 所 以 这 就 意味 着 M' 的 编码 不 属于 Lz。 398 
3. 如 末 MM 接 受 w， 则 M' 开 始 在 自身 输入 x 上 模拟 Mi。 因 此 ，M' 将 恰好 接受 语言 L。 因 为 L 属 于 
P， 所 以 M' 的 编码 属于 Lz。 
读者 应 当 注意 到 了 ， 从 M 和 w 来 构造 M' 可 以 用 一 个 算法 来 实现 。 因 为 这 个 算法 把 (M,w) 转 变 成 M'， 
使 得 MM 属于 Lz 当 且 仅 当 (M, w) 属 于 L,， 所 以 这 个 算法 是 从 ,到 Lz 的 一 个 归 约 ， 而 且 证 明 性 质 2 是 
不 可 判定 的 。 
还 没有 大 功 告 成 。 需 要 考虑 如 属于 ?的 情形 。 如 果 这 样 ， 就 考虑 补 性 质 了 2 (不 具有 性 质 2 的 
RE 语言 的 集合 )。 根 据 前 述 证 明 ，2 是 不 可 判定 的 。 但 是 ， 每 个 TM 都 接受 RE 语言 ， 所 以 等 于 
万 ， 普 是 不 接受 2 中 语言 的 图 灵机 (的 编码 ) 的 集合 ， 世 是 接受 5 中 语言 的 图 灵机 的 集合 。 假 设 
Lz 是 可 判定 的 。 于 是 Lz 也 应 当 是 可 判定 的 ， 因 为 递归 语言 的 补 是 递归 的 (定理 9.3)。 口 


9.3.4 与 图 灵机 说 明 有 关 的 问题 


根据 定理 9.11， 所 有 只 涉及 TM 接受 的 语言 的 与 TM 有 关 的 问题 都 是 不 可 判定 的 。 这 些 问题 中 
的 有 些 问 题 本 身 就 是 有 趣 的 。 例 如 ， 下 列 问题 都 是 不 可 判定 的 ; 

1. 一 全 TM 接受 的 语言 是 否 空 ( 从 定理 9.9 和 定理 9.3 了 解 了 这 个 问题 )。 

2. 一 台 TM 接 受 的 语言 是 否 有 穷 。 

3. 一 台 TM 接 受 的 语言 是 否 是 正则 语言 。 

4. 一 台 ITM 接 受 的 语言 是 否 是 上 下 文 无 关 语言 。 

但 是 ， 莱 斯 定理 并 没有 殖 涵 与 一 台 TM 有 关 的 每 个 问题 都 是 不 可 判定 的 。 例 如 ， 询 问 这 人 台 
TM 的 状态 ， 而 不 询问 这 台 TM 接 受 的 语言 ， 这 样 的 问题 就 可 能 是 可 判定 的 。 


例 9.12 一 台 TM 是 否 具有 5 个 状态 是 可 判定 的 。 判 定 这 个 问题 的 算法 仅仅 查看 这 台 TM 的 编 
码 ， 并 计数 在 任何 转移 中 出 现 的 状态 的 数量 。 
力 一 个 例子 是 ， 是 否 存 在 某 个 输入 ， 使 得 这 台 TM 至 少 移动 5 步 ， 这 是 可 判定 的 。 当 回忆 起 ， 
如 本 一 台 TM 移 动 了 5 步 ， 则 这 人 台 TM 只 能 看 到 围绕 初始 带头 位 置 的 9 个 带 单元 时 ， 这 个 算法 就 是 
显然 的 。 因 此 ， 可 以 在 任意 有 穷 多 条 带 上 把 这 台 TM 模 拟 5 步 ， 这 些 带 由 5 个 或 少 于 5 个 带 符 号 组 
成 ， 前 后 都 是 空格 。 如 果 这 些 模拟 中 任何 一 个 模拟 没有 到 达 停 机 状态 ， 那 么 结论 是 : 这 台 TM 在 
某 个 输入 上 至 少 移动 5 步 。 口 
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9.3.5 习题 


* 习题 9.3.1 证 明 : 接受 所 有 是 回 文 的 输入 (可 能 还 有 某 些 其 他 的 输入 ) 的 TM 的 图 灵机 编码 
的 集合 是 不 可 判定 的 。 
习题 9.3.2 毕 格 计算 机 公司 决定 , 通过 制造 一 种 高 技术 版 本 图 灵机 (这 种 图 灵机 称 为 BWTML， 
装备 有 铃 和 哨 ) 来 挽救 公司 下 滑 的 市 场 份额 。BWTM 基 本 上 与 普通 的 图 灵机 是 一 样 的 ， 不 同 之 处 
在 于 ， 这 种 机 器 的 每 个 状态 都 标记 成 要 么 “ 铃 状 态 ” 要 么 “ 哨 状 态 ”。 每 当 BWTM 进 入 一 个 新 状 
态 时 ， 就 根据 刚 进入 的 状态 的 类 型 来 打 铃 或 者 吹 哨 。 证 明 : 一 台 给 定 的 BWTM M 在 给 定 的 输入 w 
上 是 否 曾经 吹 哨 ， 这 是 不 可 判定 的 。 
习题 9.3.3 ”证 明 : 下 面 这 样 的 TM M 的 编码 的 语言 是 不 可 判定 的 ， 当 M 从 空白 带 开始 时 ， 最 
终 在 带 上 某 处 写 下 1。 
! 习题 9.3.4 根据 莱 斯 定理 可 知 下 列 问题 都 是 不 可 判定 的 。 但 是 ， 这 些 问题 是 递归 可 枚 举 的 还 
是 非 RE? 
a) LOCM4) 含 有 至 少 两 个 串 吗 ? 
b) L(M) 是 有 穷 的 吗 ? 
c) L(M) 是 上 下 文 无关 语 言 吗 ? 
* d) L(M) = (LM))* 吗 ? : 
! 习题 9.3.5 ” 设 L 是 由 一 对 TM 的 编码 加 一 个 整数 ( 即 (M1, M;, 及 ) 组 成 的 语言 ， 使 得 LCM1) 站 
ZU) 包含 至 少 k 个 串 。 证 明 : Z 是 RE 但 不 是 递归 的 。 
习题 9.3.6 证 明 下 列 问题 都 是 可 判定 的 : 
* a) 使 得 当 M 从 空白 带 开始 时 ，M 最 终 在 带 上 写 下 某 个 非 空 格 符号 的 TM M 的 编码 的 集合 。 提 
示 : 如 果 M 有 m 个 状态 ， 则 考虑 M 的 前 m 个 转移 。 
!1b) 永 不 向 左 移动 的 TM 的 编码 的 集合 。 
! 0) 使 得 从 输入 w 开 始 ，TM M 永 不 扫描 任何 带 单元 超过 一 次 的 有 序 对 (M, w) 的 集合 。 
! 习 题 9.3.7 证 明 下 列 问题 都 不 是 递归 可 枚 举 的 : 
* a) 使 得 TM M 从 输入 w 开 始 不 停机 的 有 序 对 (M, w) 的 集合 。 
b) 使 得 LM1) LM2) = 的 有 序 对 (M1, M2) 的 集合 。 
c) 使 得 LCM1) = L(M2)L(M3)( 即 第 一 个 TM 的 语言 是 另外 两 个 TM 的 语言 的 连接 ) 的 有 序 对 
(Mi, M2, M3;) 的 集合 。 
!! 习题 9.3.8 说 出 下 列 每 个 语言 是 否 递 归 的 、RE 但 不 是 递归 的 或 者 非 RE、。 
* a) 所 有 在 每 个 输入 上 都 停机 的 TM 的 TM 编码 的 集合 。 
b) 所 有 在 所 有 输入 上 都 不 停机 的 TM 的 TM 编码 的 集合 。 
c) 所 有 在 至 少 一 个 输入 上 停机 的 TM 的 TM 编码 的 集合 。 
* d) 所 有 在 至 少 一 个 输入 上 不 停机 这 样 的 TM 的 TM 编码 的 集合 。 


9.4 波斯 特 对 应 问题 
在 本 节 ， 开 始 把 与 图 灵机 有 关 的 不 可 判定 问题 归 约 到 与 “真实 ”事物 有 关 的 不 可 判定 问题 
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上 ， 即 归 约 到 与 图 灵机 这 种 抽象 物 没有 关系 的 普通 事物 上 。 从 所 谓 “ 波 斯 特 对 应 问题 ”(PCP) 
开始 ， 虽 然 这 个 问题 依然 抽象 ， 但 是 这 个 问题 涉及 字符 串 而 不 涉及 图 灵机 。 目 标 是 ， 证 明 这 个 
与 串 有 关 的 问题 是 不 可 判定 的 ， 然 后 通过 把 PCP 归 约 到 
其 他 问题 上 ， 利 用 这 个 问题 的 不 可 判定 性 ， 来 证 明 其 他 4 mk PCP 
问题 不 可 判定 。 

我 们 要 通过 把 归 约 到 PCP 上 来 证 明 PCP 不 可 判定 。 图 9-11 证 明 波 斯 特 对 应 问题 的 
为 了 便于 证 明 ， 介 绍 一 种 “修改 过 的 ”PCP， 把 这 个 修 ee 
改过 的 问题 归 约 到 原来 的 PCP 上 。 然 后 ， 把 L, 归 约 到 这 个 修改 过 的 PCP 上 。 这 个 归 约 链 如 图 9-11 
所 示 。 因 为 已 知 原来 的 ,是 不 可 判定 的 ， 所 以 结论 是 PCP 是 不 可 判定 的 。 


9.4.1 波斯 特 对 应 问题 的 定义 


波斯 特 对 应 问题 (PCP) 的 一 个 实例 由 某 个 字母 表 三 上 串 的 两 个 表 组 成 ， 这 两 个 表 一 定 长 
度 相等 。 一 般 称 为 4 表 和 B 表 ， 并 且 对 于 某 个 整数 FE， 写 成 4 = wi, wz, …, we 和 B = x1, x2,…, xt。 对 
于 每 个 i:， 把 有 序 对 (wi, x) 称 为 对 应 对 。 

如 采 存 在 一 个 或 多 个 整数 的 序列 ha, PP …, 如， 当 把 这 个 序列 解释 成 4 表 和 B 表 中 串 的 下 标 时 产 
生 相 同 的 串 ， 则 说 PCP 回 题 的 这 个 实例 有 解 。 也 就 是 说 ， 和 如 果 这 样 ， 
吏 说 这 个 序列 ii, i,…,in 是 这 个 PCP 实 例 的 一 个 解 。 波 斯 特 对 应 问题 是 : 


。 给 定 一 个 PCP 实 例 ， 说 出 这 个 实例 是 否 有 解 。 


例 9.13” 设 = {0, 1}， 设 4 表 和 8B 表 如 图 9-12 所 定义 。 在 这 种 情形 下 PCP 有 解 。 例 如 ， 设 m = 
4, 让 =2， 22=1 is= 1，ia =3; 即 这 个 解 是 表 2, 1, 1,3。 通 过 按照 两 个 表 的 顺序 把 对 应 串 连 接 起 
来 ， 可 以 验证 这 个 表 是 一 个 解 。 也 就 是 说 ，wzwnwiwa = xoxixixs = 101111110。 注 意 ， 这 个 解 不 是 
惟一 的 。 例 如 ，2, 1,1,3,2, 1 1,3 是 另 一 个 解 。 口 


例 9.14 下 面 是 无 解 的 一 个 例子 。 同 样 设 2 = {0, 1}， 但 是 现在 这 个 实例 是 图 9-13 中 给 出 的 两 
修 表 。 8 
假设 图 9-13 中 的 PCP 实 例 有 解 ( 比 方 说 i, i, …, 各， 对 于 某 个 站 >1)。 断 言 : = 1。 因 为 如 
末 ii = 2， 则 以 wz = 011 开 头 的 串 就 不 得 不 等 于 以 m = 11 开 头 的 串 。 但 是 这 样 的 相等 是 不 可 能 的 ， 
因为 这 两 个 串 的 第 一 个 符号 分 别 是 0 和 1。 同 样 ， 不 可 能 ii = 3， 因 为 这 样 一 来 ， 以 ws = 101 开 头 的 
串 就 必须 等 于 以 x3 = 011 开 头 的 串 。 





图 9-12 一 个 PCP 实 例 图 9-13 男 一 个 PCP 实 例 


如 来 i = 1， 则 从 表 A 和 表 B 得 出 的 两 个 对 应 串 就 不 得 不 这 样 开头 : 


> 
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B. 101:…: 


现在 看 看 i 可 能 是 什么 。 
1. 如 末 = 1， 则 有 问题 ， 因 为 以 wiw1 = 1010 开 头 的 串 不 能 匹配 以 zxi = 101101 开 头 的 串 ， 这 
两 个 串 在 第 四 个 位 置 上 一 定 不 同 。 
2. 如 采 忆 = 2， 同 样 有 问题 ， 因 为 以 wrnw2 = 10011 开 头 的 串 不 能 匹配 以 zzz = 10111 开 头 的 串 ， 
这 两 个 串 在 第 三 个 位 置 上 一 定 不 同 。 
3. 只 有 六 = 3 是 可 能 的 。 
如 来 选 择 is = 3， 则 从 整数 表 纪 ,所 形成 的 对 应 串 是 : 
A: 10101… 
已 : 101011… 
关于 这 些 串 ， 没 有 理由 立即 说 明 不 能 把 表 1, 3 扩展 为 解 。 但 是 ， 可 以 论证 不 可 能 这 样 做 。 原 因 在 
于 ,现在 是 处 在 与 选择 it = 1 之 后 的 同样 条 件 下 。 从 8 表 得 出 的 这 个 串 ， 与 从 4 表 得 出 的 这 个 串 相 
等 ， 除 了 在 8 表 中 在 结尾 有 一 个 多 余 的 1 之 外 。 因 此 ， 被 迫 选 择 a = 3，is = 3， 依 此 类 推 ， 以 避免 
产生 不 匹配 。 永 远 不 能 让 4 串 赶 上 8 串 ， 因 此 永远 不 能 形成 一 个 解 。 口 


PCP 作 为 语言 


因为 正在 讨论 判定 一 个 给 定 的 PCP 实 例 是 否 有 解 这 个 问题 ， 所 以 需要 把 这 个 问题 表述 
成 一 个 语言 。 由 于 PCP 人 允许 实例 具有 任意 字母 表 ， 所 以 这 个 语言 PCP 其 实 是 某 个 固定 字母 
表 上 的 串 的 集合 ， 这 些 串 编码 那些 PCP 实 例 ， 非 常 像 是 在 9.1.2 节 中 编码 那些 具有 任意 的 状 
态 集合 和 带 符号 集合 的 图 灵机 。 例 如 ， 如 果 一 个 PCP 实 例 具 有 不 超过 2 个 符号 的 字母 表 ， 


则 可 以 用 不 同 的 k 位 二 进 制 编码 来 表示 每 种 符号 。 

因为 每 个 PCP 实 例 都 具有 有 穷 字母 表 ， 所 以 可 以 为 每 个 实例 找到 某 个 k。 于 是 可 以 在 一 
个 3 个 符号 的 字母 表 中 编码 所 有 这 些 实例 ， 这 个 字母 表 由 0、1 和 分 隔 串 的 “逗号 ”符号 组 
成 。 编 码 开头 是 用 二 进 制 写 下 的 K， 接 着 写 下 逗号 。 然 后 写 下 每 一 对 串 ， 用 逗号 分 隔 这 些 串 ， 
用 k 位 二 进 制 编码 来 编码 这 些 串 的 符号 。 





9.4.2 “修改 过 的 ”PCP 


如 采 首 先 介 绍 一 个 中 间 版 本 的 PCP， 即 所 谓 的 修改 过 的 波斯 特 对 应 问题 ( 即 MPCP)， 则 更 
容易 把 L, 归 约 到 PCP。 在 这 个 修改 过 的 PCP 中 ， 对 解 有 附加 的 要 求 : 4 表 和 8 表 上 第 一 个 有 序 对 
必须 是 解 当 中 的 第 一 个 有 序 对 。 更 形式 化 地 说 ， 一 个 MPCP 实 例 是 两 个 表 4 = wi, w, …, we 和 B = 
1,X2，…, 4， 一 个 解 是 零 个 或 多 个 整数 的 表 i1, 2, …, 如， 使 得 


WiWil Wi, 时兴 一 XIXi Xi . Xi, 


注意 ， 即 使 在 解 表 的 前 面 没 有 提 到 下 标 1， 也 强迫 有 序 对 (wi, z) 在 这 两 个 串 的 开头 。 另 外 ， 
与 PCP 不 同 (PCP 解 在 这 个 解 表 上 至 少 有 一 个 整数 )， 在 MPCP 中 ， 如 果 wi = 为 ， 则 空 表 可 以 是 一 


个 解 (但 是 这 些 实例 没有 什么 意思 ， 将 不 会 出 现在 对 MPCP 的 使 用 中 )。 


部 分解 
在 例 9.14 中 ， 使 用 了 一 种 分 析 PCP 实 例 的 技术 ， 这 种 技术 经 党 出现 。 考 虑 可 能 的 部 分 
解 是 什么 ， 也 就 是 说 ， 下 标 i1, 记 ， … 和 六 的 序列 ， 使 得 wi wi …wi 和 2 人 中 一 个 是 另 一 个 
的 前 缀 ， 尽 管 这 两 个 串 并 不 相等 。 注 意 ， 如 果 某 个 整数 序列 是 一 个 解 ， 则 这 个 序列 的 每 个 


前 级 就 一 定 是 一 个 部 分 解 。 因 此 ， 理 解 了 什么 是 部 分 解 ， 就 可 以 论证 可 能 有 什么 解 。 

但 是 注意 ， 因 为 PCP 是 不 可 判定 的 ， 所 以 没有 算法 来 计算 所 有 的 部 分 解 。 可 能 存在 有 
无 穷 多 个 部 分 解 ， 更 糟糕 的 是 ， 关于 串 wiawp … wi FXi Xi 的 长 度 可 以 相差 多 少 这 方面 
设 有 任何 上 和 界 ， 即 使 这 个 部 分 解 导致 一 个 解 。 





例 9.15 ”可 以 认为 ,图 9-12 中 的 表 是 一 个 MPCP 实 例 。 但 是 ， 作 为 一 个 MPCP 实 例 ， 这 个 表 
却 无 解 。 在 证 明 中 ， 注意， 任何 部 分 解 一 定 以 下 标 1 开 头 ， 所 以 一 个 解 的 两 个 串 可 以 这 样 开始 : 
Wt he 
R111. 


下 一 个 整数 不 可 能 是 2 或 3， 因 为 wz 和 ws 都 以 10 开 头 ， 所 以 可 能 在 第 三 个 位 置 上 产生 不 匹配 。 因 
此 ， 下 一 个 下 标 只 可 能 是 1， 结 果 是 : 
B; iilllk. 


可 以 这 样 不 停 地 论证 下 去 。 只 有 解 当 中 的 另 一 个 1 才能 避免 不 匹配 ， 但 是 如 果 只 能 选择 下 标 1， 
则 如 串 始 终 是 4 串 的 三 倍 长 度 ， 这 两 个 串 永 远 不 能 变 得 相等 。 口 


证 明 PCP 是 不 可 判定 的 ， 其 中 一 个 重要 步骤 是 ， 把 MPCP 归 约 到 PCP。 稍 后 ， 通 过 把 LL, 归 约 
到 MPCP 来 证 明 MPCP 是 不 可 判定 的 。 到 那 时 ， 将 要 获得 PCP 也 是 不 可 判定 的 一 个 证 明 ， 假如 
PCP 是 可 判定 的 ， 则 应 当 可 以 判定 MPCP， 因 此 应 当 可 以 判定 L,。 

给 定 带 有 字母 表 2 的 一 个 MPCP 实 例 ， 构 造 一 个 PCP 实 例如 下 。 首 先 ， 引 入 一 个 新 符号 *， 
在 这 个 PCP 实 例 中 ， 这 个 符号 出 现在 MPCP 实 例 的 串 中 的 每 个 符号 之 间 。 但 是 ， 在 4 表 的 这 些 串 
中 ，* 跟 在 的 符号 后 面 ， 而 在 B 表 中 ，* 跟 在 的 符号 前 面 。 一 个 例外 是 一 个 新 有 序 对 ， 这 个 
有 序 对 是 基于 MPCP 实 例 的 第 一 个 有 序 对 ， 这 个 有 序 对 在 wi 开头 有 一 个 额外 的 *， 所 以 这 个 * 可 
用 来 开始 这 个 PCP 解 。 把 一 个 终止 有 序 对 ($, *$) 加 入 这 个 PCP 实 例 。 这 个 有 序 对 作为 一 个 PCP 解 
当中 的 最 后 一 项 ， 这 个 PCP 解 模拟 这 个 MPCP 实 例 的 一 个 解 。 

现在 把 上 述 构造 形式 化 。 给 定 一 个 具有 表 4 = wu w, …, wi 和 表 B =xi,x2,…, 妈 的 MPCP 实 例 ， 
假设 学 和 4 是 不 在 这 个 MPCP 实 例 的 字母 表 中 出 现 的 符号 。 构造 一 个 PCP 实 例 C = 0 1 2 Ne) 
和 D = zo, Zi,…, Ze+1 如 下 : 

1. 对 于 i = 1,2,…,k， 设 yy 是 在 wi 每 个 符号 后 加 入 * 之 后 的 w;:， 设 zi 是 在 x; 每 个 符号 前 加 入 * 之 

后 的 xi。 
2.y0=*71 且 zo =z1。 也 就 是 说 ， 第 0 个 有 序 对 类 似 于 有 序 对 1， 除 了 在 来 自 第 一 个 表 的 串 的 开 
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头 有 一 个 额外 的 * 之 外 。 注 意 ， 第 0 个 有 序 对 将 是 这 个 PCP 实 例 中 惟一 一 个 有 序 对 ， 这 个 
有 序 对 中 两 个 串 以 相同 符号 开头 ， 所 以 这 个 PCP 实 例 的 任 
何 一 个 解 都 必须 从 下 标 0 开始 。 





3. 3 六 醒目 .2 二 向 *]* 
] | 1* *]x*]A*1] 
例 9.16 “假设 图 9-12 是 一 个 MPCP 实 例 。 则 上 述 步 又 所 构造 的 2 | 1x0*lxlxlx | #1#0 
PCP 实 例如 图 9-14 所 示 。 加 、 志 上 0Ox *0 
4|198 *$ 
定理 9.17 MPCP 归 约 到 PCP。 图 9-14 从 一 个 MPCP 实 例 构 
证 明 上 面 给 出 的 构造 是 这 个 证 明 的 核心 。 首 先 ， 假 设 i1,,…， 造 一 个 PCP 实 例 


imn 是 具有 表 A 和 表 B 的 这 个 给 定 的 MPCP 实 例 的 解 。 于 是 知道 wiwiwa… wi, =xixixo… x,。 假 如 把 
这 些 w 换 成 > 并 把 x 换 成 z， 则 应 当 有 两 个 几乎 相同 的 串 : yi, FHz1zi zi» oni 差别 在 于 ， 第 
一 个 串 可 能 在 开头 少 一 个 *， 而 第 二 个 串 可 能 在 结尾 少 一 个 *。 也 就 是 说 ， 
ed DO ol A Vs ee 
但 是 ，yo = * yi 且 zo = zl， 所 以 通过 把 第 一 个 下 标 换 成 0， 就 可 以 处 理 好 开头 这 个 *。 于 是 就 
有 : 
了 ON 0 
通过 增加 下 标 k + 1， 就 能 处 理 好 最 后 这 个 *。 因 为 ye+1 = $ 且 z+1=*$， 所 以 有 
FOV Yi Win kt+l 一 2Z02i1Zip Zi Zk+1 
因此 已 经 证 明了 0, ,i,…,in,k+ 1 是 这 个 PCP 实 例 的 一 个 解 。 
现在 ， 必 须 证 明 相反 的 方向 ， 即 如 果 构 造 的 这 个 PCP 实 例 有 一 个 解 ， 则 原来 这 个 MPCP 实 例 
也 有 一 个 解 。 注 意 ， 这 个 PCP 实 例 的 一 个 解 ， 必 须 以 下 标 0 开 头 并 且 以 下 标 k + 1 结尾 ， 因 为 只 有 
第 0 个 有 序 对 的 串 yo 和 zo 才 以 相同 符号 开头 ， 并 且 只 有 第 k + 1 个 有 序 对 的 串 才 以 相同 符号 结尾 。 
因此 ， 这 个 PCP 解 可 以 写成 0,i,i,…,in,k+ 1。 
断言 : 入, 记 ,…, in 是 MPCP 实 例 的 解 。 原因 在 于 ， 如 果 从 串 yoyi yi ”+ :中 删除 * 和 结尾 的 
$， 则 得 到 串 wiwiw;,… wi,。 而 且 ， 如 果 从 串 zoziizi,… zizx+1 中 删除 x 和 5$， 则 得 到 xixi xi，*…… X。 
已 知 
OVD YOVE+I™ 0 Zi LER 
所 以 得 出 
WITH Wi 二 DT Ni, 
因此 ， 这 个 PCP 实 例 的 一 个 解 蕴涵 着 这 个 MPCP 实 例 的 一 个 解 。 
现在 看 到 ， 在 这 个 定理 之 前 描述 的 这 个 构造 是 一 个 算法 ， 这 个 算法 把 MPCP 的 一 个 有 解 实例 转 
化 成 PCP 的 一 个 有 解 实例 ， 并 且 把 MPCP 的 一 个 无 解 实例 转化 成 PCP 的 一 个 无 解 实例 。 因 此 ， 存 在 
看 从 MPCP 到 PCP 的 一 个 归 约 ， 这 个 归 约 证 实 : 如 果 PCP 是 可 判定 的 ， 则 MPCP 也 是 可 判定 的 。“ 口 


9.4.3 PCP 不 可 判定 性 证 明之 完成 
现在 通过 把 归 约 到 MPCP 来 完成 图 9-11 中 的 归 约 链 。 也 就 是 说 ， 给 定 一 个 有 序 对 (M, w)， 
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构造 一 个 MPCP 实 例 (4, B)， 使 得 TM M 接 受 输入 w 当 且 仅 当 (4, B) 有 解 。 

本 质 思想 是 : 在 部 分 解 中 ，MPCP 实 例 (4, B) 模 拟 M 在 w 上 的 计算 。 也 就 是 说 ， 这 些 部 分 解 将 
由 下 面 这 样 的 串 组 成 : 这 些 串 是 M 的 D 序 列 的 前 缀 #Q1#Q2#Q3#…，a 是 M 在 输入 w 上 的 初始 ID， 
并 且 对 于 所 有 i，ai Fw。 来 自 B 表 的 这 个 串 将 总 是 比 来 自 4 表 的 这 个 串 提 前 一 个 ID ， 除 非 W 进 
入 接受 状态 。 在 那 种 情况 下 ， 将 存在 一 些 有 序 对 可 供 使 用 ， 这 些 有 序 对 允许 4 表 “起 上”B 表 并 
最 终 产 生 一 个 解 。 但 是 ， 如 有 果 不 进入 接受 状态 ， 就 没有 办 法 使 用 这 些 有 序 对 ， 就 不 存在 任何 解 。 

为 了 简化 对 一 个 MPCP 实 例 的 构造 ， 将 要 引用 定理 8.12， 这 个 定理 提出 ， 可 以 假设 TM 永 不 
显示 空格 ， 并 且 永 不 从 初始 带头 位 置 向 左 移动 。 在 那 种 情况 下 ， 图 灵机 的 一 个 四 将 总 是 形 如 aqp 
的 一 个 串 ，a 和 pb 是 非 空格 带 符号 的 串 ，g 是 状态 。 但 是 ， 如 果 这 个 带头 是 在 a 右边 紧 接 着 的 空格 
上 ， 则 允许 6 为 空 ， 而 不 在 状态 右边 写 一 个 空格 。 因 此 ，a 和 的 符号 将 恰好 对 应 着 一 些 单元 的 内 
容 ， 这 些 单元 是 包含 输入 的 单元 ， 以 及 这 些 单元 右边 的 带头 先前 已 经 访问 过 的 任何 单元 。 

设 M = (0Q, >,T, 6, qo, B, 了) 是 满足 定理 8.12 的 一 全 TM， 设 w 属 于 三 是 一 个 输入 串 。 构 造 一 个 
MPCP 实 例如 下 。 为 了 理解 选择 这 些 有 序 对 背后 的 动机 ， 要 记 住 ,目标 是 让 第 一 个 表 比 第 二 个 表 
落后 一 个 ID ， 除 非 W 接 受 。 

1. 第 一 个 有 序 对 是 

表 4 表 B 
# #qow# 
这 个 有 序 对 开始 了 在 输入 上 模拟 M， 根 据 MPCP 的 规则 ， 任 何 解 都 必须 以 这 个 有 序 对 开 
头 。 注 意 ， 在 开始 时 ，B8 表 要 比 4 表 提前 一 个 完整 的 ID。 
2. 可 以 把 带 符 号 和 分 隔 符 # 加 入 这 两 个 表 。 有 序 对 


表 4 表 B 
X pb 
# # 


允许 “复制 ”不 涉及 状态 的 符号 。 实 际 上 ， 选 择 这 些 串 就 允许 扩展 A 串 来 匹配 B 串 ， 同 时 把 
前 一 个 ID 的 各 部 分 复制 到 B 串 结尾 。 这 样 做 ， 帮 助 在 B 串 结尾 形成 M 移 动 序列 中 的 下 一 个 人 D。 
3. 为 了 模拟 M 的 一 步 移动 ， 有 一 些 特 定 的 有 序 对 ， 这 些 有 序 对 反映 这 些 移动 。 对 于 所 有 Q 一 
5 中 的 4 ( 即 g 是 非 接 受 状态 )、Q 中 的 p 以 及 中 的 X, 7 了,Z 有 
表 4 表 B 
4X  p 如 采 6(q,X)=(p,Y,R) 
2AX ppZY 如 果 C(q,X)= (p, 了 ,L)，Z 是 任意 带 符 号 
of 如 果 6(gq, B) = (p, YY, R) 
Zq#  pZY# 如 采 0(q,B)= (p;Y,L)，Z 是 任意 带 符号 
类 似 于 (2) 中 的 有 序 对 ， 通 过 扩展 这 个 4 串 ， 来 匹配 这 个 B 串 ， 这 些 有 序 对 帮助 扩展 这 个 B 串 
来 加 入 下 一 个 ID。 但 是 ， 这 些 有 序 对 使 用 状态 来 确定 在 当前 帮 中 的 改变 ， 这 个 改变 是 产生 
下 一 个 ID 所 必需 的 。 这 些 改变 (新 的 状态 、 带 符号 和 带头 移动 ) 都 反映 在 这 个 B 串 结尾 正 
在 构造 的 ID 中 。 
4. 如 果 这 个 B 串 结尾 的 这 个 ID 有 接受 状态 ， 则 需要 人 允许 这 个 部 分 解 成 为 完全 解 。 通 过 扩展 一 
些 ID 来 这 样 做 ， 这 些 “ID” 其 实 不 是 MW 的 ID ， 而 是 表示 : 如 果 人 允许 接受 状态 消耗 其 
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任何 一 边 的 所 有 带 符号 ， 则 可 能 发 生 什 么 事情 。 因 此 ， 如 有 果 4 是 一 个 接受 状态 ， 则 对 于 所 
有 带 符号 & 和 7， 存在 有 序 对 


表 4 表 B 
XaqY q 
Xgq q 
qaY q 


5. 最 后 ,一旦 这 个 接受 状态 消耗 了 所 有 带 符 号 ， 这 个 接受 状态 就 单独 作为 这 个 B 串 上 最 后 一 
个 ID。 也 就 是 说 ， 这 两 个 串 的 剩余 ( 即 这 个 B 串 的 一 部 分 后 级 ， 这 部 分 后 级 必须 加 入 到 这 
个 4 串 以 匹配 这 个 B 串 ) 是 q#。 使 用 最 后 一 个 有 序 对 

到 A4! °t 家 8 
中 
来 完成 这 个 解 。 
在 下 面 的 讨论 中 ， 把 上 面 产生 的 五 种 有 序 对 称 为 来 自 规 则 (1) 的 有 序 对 、 来 自 规则 (2) 的 有 序 


例 9.18 TM 
M = ({qi, 4d?2， q3}， {0, 1}, {0, $2} 0， di B, {9q3})， 
其 中 5 由 下 列 方式 给 











(g2, 0， L) 
(gi 0， R) 


把 这 个 TM 和 输入 串 w = 01 转 换 成 一 个 MPCP 实 例 。 为 了 简化 起 见 ， 注 意 ，M 永 不 写 下 空格 ， 所 以 
在 一 个 了 中 将 永远 没有 B。 因 此 ， 这 里 忽略 所 有 涉及 B 的 有 序 对 。 这 些 有 序 对 的 完整 列表 在 图 9-15 
中 ， 图 中 还 有 关于 每 个 有 序 对 来 源 的 解释 。 
注意 ，M 通 过 下 列 移动 序列 接受 输入 01: 
qi01 上 1921 FF-10g1 上 19201 上 g3101 

看 看 模拟 M 的 这 个 计算 的 部 分 解 的 序列 ， 并 最 终 导致 一 个 解 。 在 MPCP 任 何 解 当中 ， 都 要 求 必须 
从 第 一 个 有 序 对 开头 : 

A: # 

B: #qi01# 
扩展 这 个 部 分 解 的 惟一 方式 是 : 来 自 这 个 4 表 的 串 是 剩余 9i01# 的 前 绥 。 因 此 ， 下 一 步 必须 选择 
这 个 有 序 对 (q10, 192)， 这 个 有 序 对 是 从 规则 (3) 得 出 的 模拟 移动 的 有 序 对 当中 的 一 个 。 这 个 部 分 
解 因此 就 是 

A: #qi0 

B: #qi01#1g; 
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通过 使 用 来 目 规则 (2) 的 “复制 ”有 序 对 ， 现 在 可 以 进一步 扩展 这 个 部 分 解 ， 直 到 到 达 第 二 个 ID 
中 的 状态 为 止 。 这 个 部 分 解 于 是 就 是 : 


0(9i， 1) 
6(q1, 1) 
6(qi, B) 
6(q1, B) 
0(92， 0) 


0(92， 0) 
0(92， 1) 
0(g2, B) 


B: #qi01#1gqg>1#1 
在 这 个 时 刻 ， 可 以 使 用 规则 (3) 有 序 对 当中 的 另 一 个 来 模拟 移动 ， 正 确 的 有 序 对 是 (qz1, 0g1)， 得 
出 的 这 个 部 分 解 是 : 
4: #qi01#1g;1 
B: #qi01#1g,1#10g 
现在 本 来 可 以 使 用 规则 (2) 有 序 对 来 “复制 ” 接 下 来 的 三 个 符号 : #, 1,0。 但 是 ， 走 得 那样 远 可 能 
是 个 错误 ， 因 为 M 的 下 一 步 移动 是 把 带头 向 左 移动 ， 状 态 前 面 紧 挨 着 的 这 个 0 是 下 一 个 规则 (3) 有 
序 对 中 所 需要 的 。 因 此 ， 只 “复制 ” 接 下 来 两 个 符号 ， 让 这 个 部 分 解 是 ; 
A: #oi01#1921#] 
可 以 使 用 的 正确 的 规则 (3) 有 序 对 是 (0g1#, 9201 妃 ， 这 个 有 序 对 给 出 部 分 解 : 
A: #qi01#1gq>1#10g1# 
B: #qi01#1q1#10gi#1qg201# 


d2)， 0， L) 
d2， 0， L) 
(gq2, 1, 1) 


(qz2, 1, 5) 
d3， 0, 工 ) 


d1， 0， R) 
(q2， 0， R) 





图 9-15 从 例 9.18 的 TM M 构 造 的 MPCP 实 例 


现在 可 以 使 用 另 一 个 规则 (3) 有 序 对 (1q20, qa10)， 这 个 有 序 对 导致 接受 : 
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上 ~ 
OO 


小 


sa 


已 : #qi01#1qg1#10qgi#1q201#q310 


在 这 个 时 候 ， 使 用 来 自 规则 (4) 的 一 些 有 序 对 来 从 ID 中 消耗 除 q; 之 外 的 所 有 符号 。 还 需要 来 自 规 
则 (2) 的 一 些 有 序 对 来 在 必要 时 复制 符号 。 下 一 个 部 分 解 是 : 

A: #qi01#1qg21#10qg1#1q201#q3101#q301#q3l# 

B: #qi01#1qg1#10gqgi1#1g201#q3101#q301#q31#q3# 


在 ID 中 只 剩 下 gs， 可 以 使 用 来 自 规则 (53) 的 有 序 对 (9g3 楷 , 芍 来 完成 这 个 解 : 
A: #qi01#1g,1#10g1#1g;01#g3101#g301#q31#gq3## 
B: #qi01#1q;1#10g1#1q;01#g3101#q301#g31¥#q3## 口 


定理 9.19 波斯 特 对 应 问题 是 不 可 判定 的 。 

证 明 ”几乎 已 经 完成 了 如 图 9-11 所 示 的 归 约 链 。 从 MPCP 到 PCP 的 归 约 如 图 9-17 所 示 。 本 节 
的 这 个 构造 说 明 ， 如 何 把 L, 归 约 到 MPCP。 因 此 ， 通 过 证 明 这 个 构造 是 正确 的 ， 就 完成 了 PCP 不 
可 判定 性 的 证 明 ， 也 就 是 说 ， 


。M 接 受 w 当 且 仅 当 构 造 的 这 个 MPCP 实 例 有 解 。 


( 仅 当 ) 例 9.18 给 出 了 基本 思路 。 如 果 w 属 于 L(M)， 那 么 可 以 从 来 自 规则 (1) 的 这 个 有 序 对 开 
始 ， 并 且 模 拟 M 在 w 上 的 计算 。 使 用 来 自 规则 (3) 的 一 个 有 序 对 从 每 个 ID 复制 状态 并 模拟 M 的 一 步 
移动 ， 使 用 来 自 规则 (2) 的 这 些 有 序 对 在 必要 时 复制 带 符号 和 标记 #。 如 果 M 到 达 接 受 状态 ， 那 么 
来 目 规 则 (4) 的 这 些 有 序 对 以 及 最 后 使 用 的 来 自 规则 (5) 的 这 个 有 序 对 ， 人 允许 这 个 4 串 赶 上 这 个 B 串 
并 形成 一 个 解 。 
( 当 ) 需要 论证 : 如 果 这 个 MPCP 实 例 有 解 ， 那 么 只 能 是 因为 M 接 受 w。 首 先 ， 因 为 正在 讨论 
MPCP， 所 以 任何 解 都 必须 从 第 一 个 有 序 对 开头 ， 所 以 一 个 部 分 解 开头 是 
A: # 
B: #qow# 


只 要 在 这 个 部 分 解 中 没有 接受 状态 ， 来 自 规则 (4) 和 规则 (5) 的 有 序 对 就 没有 用 处 。 一 个 ID 当中 的 
状态 和 状态 两 边 的 一 两 个 带 符 号 ， 只 能 用 来 自 规则 (3) 的 有 序 对 来 处 理 ， 所 有 其 他 的 带 符号 和 #， 
必须 用 来 自 规则 (2) 的 有 序 对 来 处 理 。 因 此 ， 除 非 M 到 达 一 个 接受 状态 ， 否 则 所 有 部 分 解 都 具有 
以 下 形式 : 

A: x 

B: xy 
其 中 ，x 是 W 的 一 个 卫 序 列 ， 这 个 序列 表示 M 在 w 上 的 计算 ， 可 能 跟着 # 和 下 一 个 ID a 的 开头 。 剩 
余 y 是 : a 的 剩余 部 分 ， 另 一 个 #，a 的 后 继 ID 的 开头 ， 直 到 x 以 a 自身 结尾 时 为 止 。 

具体 地 说 ， 只 要 M 不 进入 接受 状态 ， 这 个 部 分 解 就 不 是 一 个 解 ，B 串 就 比 4 串 更 长 。 因 此 ， 

如 末 有 一 个 解 ， 则 MM 一 定 在 某 个 时 刻 进 入 一 个 接受 状态 ， 即 MM 接受 w。 口 
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9.4.4 习题 


习题 9.4.1 说 出 下 列 每 个 PCP 实 例 是 否 有 解 。 每 个 实例 表示 成 两 个 表 A 和 B， 对 于 i= 1,2,…， 
两 个 表 上 的 第 ; 企 串 相互 对 应 。 
*a)A=(01,001,10); B=(011,10,00),。 
b)4=(01,001, 10); B= (011,01,00)。 
cj A=(ab,.a,.be, ci B={bc,ab, CR 
! 习题 9.4.2 虽然 已 经 证 明了 PCP 是 不 可 判定 的 ， 但 是 假设 了 字母 表 > 是 任意 的 。 证 明 : 即使 
限制 字母 表 三 = {0,1}，PCP 也 是 不 可 判定 的 ， 方 法 是 把 PCP 归 约 到 这 种 特殊 情形 的 PCP 上 。 
*! 习题 9.4.3 ”假设 把 PCP 限 制 到 单 符号 字母 表 上 ， 比 如 说 = {0}。PCP 的 这 个 限制 情形 是 否 
还 是 不 可 判定 的 ? 
! 习题 9.4.4 ”波斯 特 标 记 系 统 由 一 些 串 的 有 序 对 集合 和 一 个 初始 串 组 成 ， 这 些 串 是 从 某 个 有 
穷 字 母 表 中 选择 的 。 如 果 (w, 是 一 个 有 序 对 并 且 y 是 > 上 任意 串 ， 则 说 wy 上 yx。 也 就 是 说 ,在 
一 步 移动 中 ， 可 以 删除 “当前 ” 串 wy 的 某 个 前 级 w， 并 且 相 应 地 在 第 二 部 分 y 的 后 面 加 入 与 w 配 
对 的 串 x。 正 如 上 下 文 无 关 文 法 中 的 推导 那样 ， 定 义 上 意味 着 零 步 或 多 步 上 。 证 明 : 给 定 一 个 有 
序 对 集合 P 和 一 个 初始 串 z， 是 否 z 上 是 不 可 判定 的 。 提 示 : 对 于 每 个 TM M 和 输入 w， 设 z 是 带 输 
入 Y 的 M 的 初始 ID， 后 面 跟着 分 隔 符 #。 选 择 这 样 一 些 有 序 对 已， 使 得 M 的 任何 ID 都 一 定 最 终 成 为 
其 后 继 了 DP， 这 个 后 继 ID 是 经 过 M 的 一 步 移 动 而 产生 的 。 如 果 M 进 入 一 个 接受 状态 ， 则 做 出 安排 ， 
最 终 删除 当前 这 个 串 ， 即 递归 到 e。 


9.5 其 他 不 可 判定 问题 


现在 ， 将 要 考虑 各 式 各 样 的 其 他 问题 ， 可 以 证 明 这 些 问 题 是 不 可 判定 的 。 主 要 技术 是 : 把 
PCP 归 约 到 希望 证 明 不 可 判定 的 那个 问题 上 。 


9.5.1 与 程序 有 关 的 问题 


首先 注意 ， 可 以 用 任何 常规 语言 来 写 出 一 个 程序 ， 这 个 程序 以 一 个 PCP 实 例 作为 输入 ， 以 
某 种 系统 的 方式 来 搜索 解 ， 例 如 ， 按 照 候选 解 的 长 度 ( 即 有 序 对 个 数 ) 顺序 。 因 为 PCP 人 允许 任 
意 字 有 母 表 ， 所 以 应 当 用 二 进 制 或 某 个 其 他 固定 字母 表 来 编码 PCP 字 母 表 的 符号 ， 如 同 在 9.4.1 节 
的 “PCP 作 为 语言 ”的 方 框 中 所 讨论 过 的 那样 。 

可 以 让 这 个 程序 去 做 想 让 它 做 的 任何 具体 事情 ， 例 如 ， 当 这 个 程序 找到 解 时 ， 就 停机 或 显示 
hello,， wor1d。 人 否则 ， 这 个 程序 将 永 不 执行 这 个 特定 动作 。 因 此 ， 一 个 程序 是 否 显示 he1l1lo， 
wor1d， 和 是 否 停 机 ， 是 否 调用 一 个 特定 函数 ， 是 否 让 控制 台 响 铃 ， 或 者 是 否 做 任何 其 他 非 同 寻常 
的 动作 等 ， 这 些 都 是 不 可 判定 的 。 事 实 上 ， 对 于 程序 ， 存 在 着 与 莱 斯 定理 类 似 的 结果 : 与 程序 做 
什么 〈 而 不 是 程序 本 身 的 词法 或 语法 性 质 ) 有 关 的 任何 非 平凡 性 质 一定 是 不 可 判定 的 。 


9.5.2 CFG 歧 义 性 问题 
程序 与 图 灵机 是 够 相似 ， 所 以 9.5.1 节 的 事实 并 不 令 人 惊讶 。 现 在 ， 将 要 看 到 ， 如 何 把 PCP 
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归 约 到 看 起 来 与 计算 机 毫 无 关系 的 一 个 问题 一 个 给 定 的 上 下 文 无 关 文法 是 否 歧义 的 问题 。 

关键 想法 是 考虑 这 样 一 些 串 : 这 些 串 以 相反 顺序 表示 下 标 (整数 ) 表 ， 以 及 依照 PCP 实 例 
两 个 表 之 一 得 出 的 对 应 串 。 文 法 可 以 生成 这 些 串 。 文 法 也 可 以 生成 PCP 实 例 中 另 一 个 表 的 类 似 
的 串 集 合 。 如 果 用 显而易见 的 方式 来 取 这 两 个 文法 的 并 ， 那 么 存在 由 原来 每 个 文法 的 产生 式 同 
时 生成 的 一 个 串 ， 当 且 仅 当 这 个 PCP 实 例 存在 一 个 解 。 因 此 ， 存 在 一 个 解 当 且 仅 当 这 个 并 文法 
中 存在 歧义 性 。 

现在 更 精确 地 描述 这 些 想法 。 设 这 个 PCP 实 例 包含 表 4 = wb wz，…, wt 和 表 B = xX, Xo,…, Xx。 
对 于 表 A， 将 要 构造 以 4 作为 惟一 变 元 的 一 个 CFG。 这 些 终结 符 是 用 于 这 个 PCP 实 例 的 字母 表 > 的 
所 有 符号 ， 以 及 一 组 不 同 的 下 标 符 号 ai, a2,…, Qa， 这 些 下 标 符号 表示 在 这 个 PCP 实 例 的 一 个 解 当 
中 对 于 串 有 序 对 的 选择 。 也 就 是 说 ， 下 标 符 号 gi 表示 从 A 表 选 择 wi 或 从 B 表 选择 x;。A 表 的 CFG 的 
产生 式 是 : 

A—wiAail W24a2 1 … | wiharx| 
wiai | wa2 | | Wrax 

把 这 个 文法 及 其 语言 称 为 G4 和 La。 在 将 来 ,把 类 似 玉 的 语言 称 为 表 A 的 语言 。 

注意 ; 由 G4 推导 的 终结 串 是 : 对 于 某 个 m 宇 1 和 整数 表 i1, i,, …, 如， 每 个 整数 是 在 1 到 的 范 
围 内 ,， 所 有 形 如 wiiwi。…， wi,ai,… a a 的 这 些 串 。G4 的 句 型 都 在 串 . 
(w) 和 下 标 符 号 (a) 之 间 有 单个 4， 直 到 使 用 最 后 一 组 k 个 产生 式 当 Bn gt 
中 一 个 为 止 ， 这些 产 生 式 体 中 都 没有 A。 因 此 ， 这 些 语法 分 析 树 类 似 


W ; A a ; 

于 如 图 9-16 所 示 的 树 。 we 
另外 注意 ， 在 G4 中 从 A 推导 的 任何 终结 申 都 有 惟一 的 推导 。 在 这 ww . 

企 串 结尾 的 下 标 符 号 惟一 地 确定 了 在 每 一 步 必须 使 用 哪 一 个 产生 式 。 和 


也 就 是 说 ， 只 有 两 个 产生 式 体 是 以 给 定 下 标 符号 ai 结尾 的 : 4 一 wihai 

和 4 一 wai。 如 采 这 个 推导 步 不 是 最 后 一 步 ， 就 必须 使 用 第 一 个 产生 式 ， ER 

如 果 是 最 后 一 步 ， 就 使 用 第 二 个 产生 式 。 叶 
现在 考虑 这 个 给 定 PCP 实 例 的 其 他 部 分 ， 即 表 B = zz2,…，,xk。 对 Ne ja 

于 这 个 表 ， 开 发 男 一 个 文法 Gs: 


lm tn 
B—xiBal | XBa» | i | xiBar | 图 9-16 法 G。 中 语法 分 
Xia1 | x2a2 | … | Xxax 析 树 的 形状 


这 个 文法 的 语言 将 被 称 为 LB。 对 于 Gs 所 注意 到 的 也 适用 于 Gs。 具 体 地 说 ，Ls 中 一 个 终结 串 具 有 
惟一 的 一 个 推导 ， 在 这 个 串 结尾 的 下 标 符 号 可 以 确定 这 个 推导 。 

最 后 ， 把 这 两 个 表 的 语言 和 文法 组 合 起 来 ， 为 整个 PCP 实 例 形 成 一 个 文法 Gas。G4s 包 含 ; 

1. 变 元 4A, B;$; 5 是 初始 符号 。 

2. 产生 式 $S 一 A1B。 

3. G4 的 所 有 产生 式 。 

4. Cs 的 所 有 产生 式 。 
我 们 断言 Cas 是 歧义 的 当 且 仅 当 PCP 实 例 (4,B) 有 解 ;， 这 个 论证 是 下 一 个 定理 的 核心 。 


定理 9.20 CEFG 是 否 歧 义 是 不 可 判定 的 。 
证 明 已 经 给 出 了 从 PCP 到 CEFG 是 人 否 歧义 的 问题 的 这 个 归 约 的 大 半 部 分 ， 这 个 归 约 证 明 CFG 
歧义 性 问题 是 不 可 判定 的 ， 因 为 PCP 是 不 可 判定 的 。 只 需要 证 明 上 面 的 构造 是 正确 的 ， 也 就 是 说 : 


“Ga 是 上 义 的 当 且 仅 当 PCP 实 例 (4,B) 有 人 解 。 
( 当 ) 假设 ,i,…, in 是 PCP 的 这 个 实例 的 一 个 解 。 考 虑 Gs 中 两 个 推导 : 


5A=w, Aa; 一 w, ,W;, Aa; a; 一 ,=> 
Wiw, wil Adi a a > Ww Wa Sasa 


Ss—> BNBa = Baa 一 人 一 


区 


因为 记 , PP 如 是 一 个 解 ， 所 以 知道 wwp … wi, = xixio… 大 。 因 此 这 两 个 推导 是 对 同一 个 终结 
串 的 推导 。 因 为 这 两 个 推导 本 身 显 然 是 同一 个 终结 串 的 两 个 不 同 最 左 推导 ， 所 以 结论 是 : Gas 是 
( 仅 当 ) 已 经 注意 到 : 一 个 给 定 的 终结 串 ， 在 G4 中 不 可 能 有 多 个 推导 ， 并 且 在 Gs 中 不 可 能 
有 多 个 推 寻 。 所 以 一 个 终结 串 在 Gas 中 可 能 有 两 个 最 左 推导 的 惟一 方式 是 : 如 果 其 中 一 个 推导 以 
3 一 4 开头 并 继 之 以 Cs 中 的 推导 ， 另 一 个 推导 以 $ 一 B 开 头 并 继 之 以 Gs 中 同一 个 串 的 推导 。 
对 于 某 个 m 宇 1， 这 个 具有 两 个 推导 的 串 带 有 结尾 下 标 ai, … aiyai;。 这 个 结尾 必定 是 这 个 PCP 
实例 的 一 个 解 ， 原因 在 于 ， 在 这 个 双 推 导 串 结尾 之 前 的 内 容 既 是 wiwp … wi 广 是 为人 ise 


9.5.3 表 语 言 的 补 


有 了 类 似 于 表 4 的 语言 Za 这 样 的 上 下 文 无 关 语言 ， 就 可 以 证 明 与 CFL 有 关 的 许多 问题 都 是 不 
可 判定 的 。 通 过 考虑 补 语言 L, 可 以 获得 CFL 的 更 多 的 不 可 判定 性 事实 。 注 意 ， 语 言 亏 包含 字母 
表 2U{au 0,…， qi 上 不 属于 LL 的 所 有 串 ， 其 中 是 某 个 PCP 实 例 的 字母 表 ， 这 些 a; 是 表示 这 个 
PCP 实 例 中 有 序 对 下 标的 不 同 符号 。 

Z 中 有 趣 的 成 员 是 一 些 串 ， 这 些 串 包括 2* 中 一 个 前 缀 ， 这 个 前 绥 是 来 自 4 表 的 某 些 串 的 连 
接 ， 后 面 跟着 下 标 符号 的 一 个 后 级 ， 这 些 下 标 符号 不 与 来 自 4 的 那些 串 匹 配 。 但 是 ， 世 ,中 也 存 
在 许多 串 只 不 过 是 具有 错误 的 形式 : 这 些 串 不 属于 正则 表达 式 2* (a1+ a;+… + ay)* 的 语言 。 

我 们 断言 L 是 CEFL。 与 Zn 不 同 的 是 ， 虽 然 为 五 设计 一 个 文法 不 是 很 容易 ， 但 是 可 以 为 工 
设计 一 个 PDA， 事 实 上 是 一 个 确定 型 PDA。 这 个 构造 在 下 一 个 定理 中 。 


定理 9.21 如 果 L4 是 表 A 的 语言 ， 则 是 上 下 文 无 关 语言 。 
证 明 设 是 表 A = wi, wz，…， wx: 上 串 的 字母 表 ， 设 I 是 下 标 符号 的 集合 : f= {01, 02,."**, Qk} 
设计 用 来 接受 元 的 DPDA P 工 作 如 下 : 
1. 只 要 P 看 到 > 中 的 符号 ， 就 把 这 些 符号 保存 在 堆栈 中 。 因 为 3* 中 所 有 的 串 都 属于 元 ， 所 
Wk P 接 受 。 
只 要 P 看 到 1 中 一 个 下 标 符号 ， 如 a;， 就 弹出 堆栈 ， 来 看 看 这 个 栈 顶 符号 是 否 构 成 w ， 
RN 串 的 反 转 。 


人 
nn 


人 
CN 
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(a) 如 采 不 是 ， 则 到 目前 为 止 所 看 到 的 这 个 输入 ， 并 且 这 个 输入 的 任何 延长 都 属于 元 。 因 
此 ，P 进 入 一 个 接受 状态 ， 在 这 个 状态 中 消耗 掉 所 有 未 来 的 输入 符号 ， 不 改变 堆栈 。 
(b) 如 果 w 从 堆栈 中 弹出 了 ， 但 是 栈 底 标记 还 没有 暴露 在 堆栈 上 ， 那 么 P 接 受 ， 但 是 P 在 
状态 中 记 住 P 正 在 专门 寻找 /中 的 符号 ， 并 且 可 能 看 到 忆 中 的 一 个 串 _(P 将 不 接受 这 个 

串 ) 。 只 要 这 个 输入 是 否 属 于 忆 的 问题 还 没有 解决 ，P 就 重复 步骤 (2)。 

(c) 如 果 w， 从 堆栈 中 弹出 了 ， 并 且 栈 底 标记 暴露 了 ， 则 P 已 经 看 到 了 一 个 4 中 的 输入 。P 
不 接受 这 个 输入 。 但 是 ， 因 为 任何 输入 继续 都 不 可 能 属于 6， 所 以 P 进 入 一 个 状态 ， 
在 这 个 状态 下 接受 所 有 未 来 的 输入 ， 保 持 堆 栈 不 变 。 

3. 如 采 在 看 到 一 个 或 多 个 1 的 符号 之 后 ，P 看 到 另 一 个 2 的 符号 ， 则 这 个 输入 不 具有 属于 L 

的 正确 形式 。 因 此 ，P 进 入 一 个 状态 ， 在 这 个 状态 中 接受 这 个 以 及 所 有 未 来 的 输入 ， 不 改 

变 堆栈 。 口 


可 以 用 不 同 的 方式 使 用 L4、Ls 及 它们 的 补 来 证 明 与 上 下 文 无 关 语 言 有 关 的 不 可 判定 性 结果 。 
下 一 个 定理 总 结 了 一 些 这 样 的 事实 。 


定理 9.22 设 G,/ 和 Gs 是 上 下 文 无 关 文 法 ， 设 R 是 正则 表达 式 。 则 下 列 问 题 都 是 不 可 判定 的 : 

a) L(G) NN LG;) =GS3? 

b) L(G1)= 17(G;) 吗 ? 

c) LG) = L(R) 吗 ? 

d) 对 于 某 个 字母 表 T，L(G1) = 7* 吗 ? 

e) L(G1) E17(G;) 吗 ? 

f) LR)SL(G) 吗 ? 

征明 ”这 些 证 明 中 的 每 一 个 都 是 来 自 PCP 的 一 个 归 约 。 证 明 如 何 把 一 个 PCP 实 例 (4, B) 转 化 
为 一 个 与 CFG 和 (或 ) 正则 表达 式 有 关 的 问题 ， 这 个 问题 有 答案 “是 ” 当 且 仅 当 这 个 PCP 实 例 有 
解 。 在 一 些 情况 下 ， 把 PCP 归 约 到 定理 中 叙述 的 这 个 问题 上 ， 在 另 一 些 情况 下 ， 把 PCP 归 约 到 这 
个 辣 题 的 补 。 这 是 无 关 紧 要 的 ， 因 为 如 果 证 明 一 个 问题 的 补 是 不 可 判定 的 ， 那 么 就 不 可 能 有 这 
个 回 题 本 身 是 可 判定 的 ， 因 为 递归 语言 对 于 补 封闭 (定理 9.3)。 

我 们 把 这 个 实例 的 串 的 字母 表 称 为 上， 把 下 标 符 号 的 字母 表 称 为 I。 这 些 归 约 依赖 于 这 样 一 
个 事实 : LI、Ls、L 、 工 都 有 CFG。 要 么 直接 构造 这 些 CFG， 就 像 在 9.5.2 节 中 那样 ， 要 么 通过 
为 定理 9.21 中 给 出 的 补 语言 构造 一 个 PDA， 再 结合 使 用 定理 6.14 从 PDA 转 化 到 CFG 来 构造 这 些 
CFG 。 

a) 设 L(G1) = L4 且 L(G,) = Ls。 于 是 L(G1) mn ZLG) 是 这 个 PCP 实 例 的 解 集合 。 这 个 交 为 空当 日 

仅 当 不 存在 解 。 注 意 ， 从 技术 上 说 ， 已 经 把 PCP 归 约 到 这 个 CFG 对 的 语言 ， 这 些 CFG 对 的 
交 非 空 ， 即 已 经 证 明了 这 个 问题 “两 个 CFG 之 交 是 否 非 空 ”是 不 可 判定 的 。 但 是 ， 正 如 
在 这 个 证 明 的 介绍 中 指出 的 那样 ， 证 明 一 个 问题 的 补 是 不 可 判定 的 ， 就 等 价 于 证 明 这 个 
问题 本 身 是 不 可 判定 的 。 

b) 因为 CFG 对 于 并 封闭 ， 故 可 以 为 LU 工 构造 一 个 CFG G1。 因 为 (FUD: 是 一 个 正则 集合 ， 


所 以 肯定 可 以 为 ( 3U1) 构 造 一 个 CFG G2。 现 在 L UL = LN 站 L。 因 此 ,L(G1) 恰 恰 缺 
少 表 示 这 个 PCP 实 例 的 解 的 串 。L(G2) 不 缺少 ( UD 中 的 任何 串 。 因 此 ， 这 两 个 CFG 的 语 
言 相 等 当 且 仅 当 这 个 PCP 实 例 无 解 。 

0) 这 个 论证 与 (b) 的 论证 相同 ,但 是 设 R 是 正则 表达 式 ( UD”。 

d) (c) 的 论证 就 足够 了 ， 因 为 UI 是 满足 下 列 条 件 的 惟一 的 字母 表 、L UL, 可 能 是 这 个 字 
母 表 的 闭 包 。 

6) 设 Gi 是 (2UD’* 的 一 个 CFG， 并 设 G, 是 LUTL 的 一 个 CFG。 于 是 ,Z(Gi) 司 UG,) 当 且 仅 
当 乙 U Z =(ZUD*， 即 当 且 仅 当 这 个 PCP 实 例 无 解 。 

f) 这 个 论证 与 (e) 的 论证 相同 ， 但 是 设 R 是 正则 表达 式 (2UnD*， 并 设 L(G) 是 LUL。 口 


9.5.4 习题 


* 习题 9.5.1 设 L 是 上 下 文 无 关 文 法 G 的 (编码 的 ) 集合 ， 使 得 L(G) 包 含 至 少 一 个 回 文 。 证 明 : 
L 是 不 可 判定 的 。 提 示 : 把 PCP 归 约 到 L， 方 法 是 从 每 个 PCP 实 例 构造 一 个 文法 ， 这 个 文法 的 语言 
包含 回 文 当 且 仅 当 这 个 PCP 实 例 有 解 。 

! 习题 9.5.2 证 明 : 语言 LU ,是 正则 语言 当 且 仅 当 这 个 语言 是 字母 表 上 所 有 串 的 集合 ， 即 
当 且 仅 当 这 个 PCP 实 例 (4, B) 无 解 。 因 此 证 明了 : 一 个 CFG 是 否 产生 一 个 正则 语言 是 不 可 判定 的 。 
提示 : 假设 PCP 有 人 解 ， 比 如 说 LU 元 缺少 串 wx， 其 中 w 是 来 自 这 个 PCP 实 例 的 字母 表 的 串 ，x 是 
下 标 符号 的 对 应 串 的 反 转 。 定 义 同 态 h(0) = w 和 h(1) = zx。 那么 三 (五 U 无 ) 是 什么 ? 利用 正则 集 
合 在 逆 同 态 和 补 之 下 封闭 的 事实 ， 以 及 正则 集合 的 泵 引 理 ， 来 证 明 ZU 志 不 是 正则 的 。 

!! 习题 9.5.3 ”CFL 的 补 是 否 也 是 CFL 是 不 可 判定 的 。 习 题 9.5.2 可 以 用 来 证 明 : CFL 的 补 是 否 正 
则 的 是 不 可 判定 的 ， 但 是 这 两 者 不 是 同一 件 事情 。 为 了 证 明 原来 的 断言 ， 需 要 定义 一 个 不 同 的 
语言 ， 这 个 语言 表示 一 个 PCP 实 例 (4, B) 的 无 解 性 。 设 Lag 是 形 如 w#x#y#z 的 串 的 集合 ， 使 得 下 列 
条 件 1~3 都 成 立 ， 条 件 4~7 至 少 一 个 成 立 : 

1. w 和 x 都 是 这 个 PCP 实 例 的 字母 表 卫 上 的 串 。 

2.y 和 z 都 是 这 个 实例 下 标 字 母 表 I 上 的 串 。 

3.# 是 既 不 属于 2 也 不 属于 /的 符号 。 

4.W 顽 XX。 

3 天 

6. 雁 不 是 下 标 串 ?根据 表 B 所 产生 的 串 。 

7. w 不 是 下 标 串 z 根 据 表 4 所 产生 的 串 。 
注意 ，Zas 包含 3*# 2* #7 #7" 中 所 有 的 串 ， 除 非 这 个 实例 (4, B) 有 解 而 Las 照样 是 一 个 CFL。 证 
明 : Ls 是 CFL 当 上 且 仅 当 不 存在 解 。 提 示 : 使 用 习题 9.5.2 的 逆 同 态 技巧 ， 并 且 使 用 奥 格 登 引 理 来 
强迫 某 些 子 串 长 度 相等 ， 如 同 在 习题 7.2.5(b) 的 提示 中 那样 。 


9.6 小结 


“递归 语言 和 递归 可 枚 举 语 言 : 图 灵机 接受 的 语言 称 为 递归 可 枚 举 的 (RE)， 总 是 停机 的 
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TM 接 受 的 RE 语言 的 子 集 称 为 递归 的 。 

“递归 语言 和 RE 语言 的 补 : 递归 语言 对 于 补 封闭 ， 并 且 如 果 一 个 语言 及 其 补 都 是 RE， 则 这 
两 个 语言 其 实 都 是 递归 的 。 因 此 ，RE 但 非 递 归 语 言 的 补 决 不 可 能 是 RE。 

。 可 判定 性 与 不 可 判定 性 :“ 可 判定 的 ”是 “递归 的 ” 同义词， 尽管 倾向 于 把 语言 称 为 “ 递 
归 的 ”而 把 问题 (问题 就 是 把 语言 解释 为 询问 一 个 问题 ) 称 为 “可 判定 的 "。 如 果 一 个 语 
言 不 是 递归 的 ， 则 把 这 个 语言 表示 的 问题 称 为 “不 可 判定 的 ”。 

“语言 Lu: 这 个 语言 是 当 将 其 解释 为 TM 时 它 不 属于 这 个 TM 的 语言 的 和 1 的 串 的 集合 。L 是 
RE 语言 的 范例 ， 即 没有 图 灵机 接受 这 个 语言 。 

“通用 语言 : 语言 二 由 解释 为 一 个 TM 并 且 后 面 跟着 这 个 TM 的 一 个 输入 的 串 组 成 ， 如 果 TM 
接受 这 个 输入 ， 则 这 个 串 属于 五。 到 是 RE 但 非 递归 的 语言 的 范例 。 

* 菜 斯 定理 :图 灵机 所 接受 语言 的 任何 非 平 几 性 质 都 是 不 可 判定 的 。 例 如 ， 根 据 莱 斯 定理 ; 
语言 为 空 的 图 灵机 的 编码 的 集合 是 不 可 判定 的 。 事 实 上 ， 这 个 语言 不 是 RE， 虽 然 这 个 语 
言 的 补 (至 少 接受 一 个 串 的 TM 的 编码 的 集合 ) 是 RE 但 不 是 递归 的 。 

“波斯 特 对 应 问题 : 这 个 问题 询问 : 给 定 相同 个 数 的 串 的 两 个 表 ， 是 否 能 从 两 个 表 挑 选 对 应 
串 的 序列 ， 通 过 连接 形成 相同 的 串 。PCP 是 不 可 判定 问题 的 重要 例子 。 对 于 归 约 到 其 他 问 
题 上 ， 并 由 此 证 明 这 些 问 题 是 不 可 判定 的 来 说 ，PCP 是 一 个 好 的 选择 。 

“不 可 判定 的 上 下 文 无 关 语言 问题 通过 来 自 PCP 的 归 约 ， 能 够 证 明 与 CFL 或 其 文法 有 关 的 
许多 问题 是 不 可 判定 的 。 例 如 ，CFG 是 否 歧义 的 ， 一 个 CFL 是 否 包含 在 另 一 个 CFL 中 ， 两 
个 CFL 的 交 是 否 为 空 ， 这 些 都 是 不 可 判定 的 。 
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第 10 章 难 解 问题 


什么 能 被 计算 或 什么 不 能 被 计算 的 讨论 ,现在 要 归结 到 有 效 计算 对 无 效 计算 的 程度 上 来 进 
行 。 只 讨论 可 判定 问题 ， 问 : 在 输入 规模 的 多 项 式 时 间 里 运行 的 图 灵机 能 计算 哪些 可 判定 问题 。 


应 当 复习 8.6.3 贡 的 两 个 要 点 : 
* 在 典型 计算 机 上 在 多 项 式 时 间 里 能 解答 的 问题 ， 恰 好 就 是 在 图 灵机 上 在 多 项 式 时 间 里 能 解 
和 丛 的 问题 。 


* 经 验 表 明 ， 在 多 项 式 时 间 里 能 解答 的 问题 与 需要 指数 或 更 长 时 间 才 能 解答 的 问题 之 间 的 分 
寞 线 是 相当 重要 的 。 需 要 多 项 式 时 间 的 实际 问题 几乎 总 是 在 可 容忍 的 时 间 内 就 能 解答 ， 而 
除了 小 的 实例 之 外 ， 需 要 指数 时 间 的 问题 一 般 都 不 能 解答 。 

本 章 介 绍 “ 难 解 性 ”理论 ， 即 证 明 不 能 在 多 项 式 时 间 里 解答 的 问题 的 技术 。 首 先 考 虑 一 个 
具体 问题 : 布尔 表达 式 能 否 被 满足 的 问题 ， 也 就 是 说 ， 从 真 值 TRUE 和 FALSE 到 布尔 表达 式 变 元 
的 茶 个 赋值 ， 能 否 使 这 个 布尔 表达 式 为 真 。 这 个 问题 对 于 难 解 问题 所 起 的 作用 就 像 L 或 PCP 对 
不 可 判定 问题 所 起 的 作用 一 样 。 也 就 是 说 ， 本 章 从 “ 库 克 定理 ”开始 ， 该 定理 草 涵 了 不 能 在 多 
项 式 时 间 里 判定 布尔 公式 的 可 满足 性 。 然 后 证 明 如 何 把 这 个 问题 归 约 到 许多 其 他 问题 上 ， 从 而 
也 证 明 这 些 问题 是 难 解 的 。 

因为 正在 讨论 问题 能 否 在 多 项 式 时 间 里 解答 ， 所 以 必须 改变 归 约 的 概念 。 有 一 个 算法 把 问 
题 的 实例 变换 成 男 一 个 问题 的 实例 ， 这 还 不 充分 。 这 个 算法 本 身 必须 至 多 花费 多 项 式 时 间 ， 否 
则 ， 即 使 源 问题 是 难 解 的 ， 归 约 也 不 允许 得 出 结论 说 目标 问题 是 难 解 的 。 因 此 10.1 节 介绍 “多 项 
式 时 间 归 约 ” 的 概念 。 

不 可 判定 性 理论 中 得 出 的 结论 与 难 解 性 理论 允许 得 出 的 结论 之 间 有 另 一 个 重要 区 别 。 第 9 章 
给 出 的 不 可 判定 性 证 明 都 是 无 可 争议 的 ， 这些 证 明 只 依赖 于 图 灵机 的 定义 和 普通 数学 。 相 反 ， 
本 章 给 出 的 关于 难 解 问 题 的 结果 都 依赖 于 一 个 未 经 证 明 但 几乎 公认 的 假设 ， 通 常 称 之 为 ?WP 
假设 。 

换 句 话说 ， 假 设 : 在 多 项 式 时 间 里 运行 的 非 确定 型 TM 所 能 解答 的 问题 类 ， 至 少 含有 在 多 项 
式 时 间 里 运行 的 确定 型 TM 所 不 能 解答 的 某 些 问题 〈 即 使 允许 确定 型 TM 有 更 高 次 的 多 项 式 )。 毫 
不 仓 张 地 说 ， 有 几 千 个 问题 似乎 属于 这 一 类 ， 因 为 多 项 式 时 间 NTM 能 轻而易举 地 解答 这 些 问题 ， 
但 是 还 不 知道 任何 多 项 式 时 间 DTM (或 计算 机 程序 ， 二 者 是 同样 的 ) 能 解答 这 些 问题 。 而 且 ， 
难 解 性 理论 的 重要 后 果 是 : 要 么 所 有 这 些 问题 都 有 多 项 式 时 间 确 定型 解法 (人 类 已 经 求 之 几 百 
年 而 不 得 )， 要 么 这 些 问题 都 没有 多 项 式 时 间 确 定型 解法 ， 即 这 些 问题 确实 需要 指数 时 间 。 


10.1 2P 类 和 WNP 类 


本 市 介 绍 难 解 性 理论 的 基本 概念 ， 问题 的 2 类 和 WP 类 ( 即 确定 型 TM 和 非 确 定型 TM 分 别 在 
多 项 式 时 间 里 能 解答 的 问题 )， 以 及 多 项 式 时 间 归 约 的 技术 。 本 节 还 定义 “NP 完全 性 ”的 概念 ， 


~ 
On 
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即 NP 中 茶 些 问题 所 具有 的 性 质 ， 这 些 问题 至 少 是 和 NP 中 任意 问题 一 样 难 的 (在 时 间 上 至 多 相 
差 多 项 式 )。 

10.1.1 可 在 多 项 式 时 间 内 解答 的 问题 


如 末 每 当 给 定 图 灵机 MM 长 度 为 n 的 输入 w 时 ，M 无 论 接 受 与 否 , 都 在 至 多 移动 T(n) 步 之 后 停机 ， 
则 说 M 具 有 时 间 复 杂 性 ”T(n) (或 具有 “运行 时 间 T(n)”)。 这 个 定义 适用 于 任意 函数 T(n)， 比 如 
7T(n) = 507 或 TD) = 3" + 5n*， 我 们 主要 是 对 7(n) 是 n 的 多 项 式 的 情形 感 兴趣 。 如 果 存 在 某 个 多 项 
式 T(n) 和 某 个 具有 时 间 复 杂 性 T(n) 的 确定 型 TM M， 使 得 L = L(M)， 则 说 语言 L 属 于 ?类 。 


在 多 项 式 与 指数 之 间 有 没有 其 他 函数 ? 


在 这 个 引导 性 的 讨论 中 ， 以 及 后 续 的 讨论 中 ， 常 常 好 像 所 有 程序 要 么 在 多 项 式 时 间 
( 即 对 于 茶 个 整数 :， 时 间 O(n)) 里 运行 ， 要 么 在 指数 时 间 ( 即 对 于 某 个 常数 c， 时 间 O(2")) 
或 更 长 的 时 间 里 运行 。 在 实践 中 ， 常 见 问题 的 已 知 算法 一 般 确 实 落 入 这 两 类 之 一 。 但 是 存 
在 看 介 于 多 项 式 与 指数 之 间 的 运行 时 间 。 在 谈论 指数 的 所 有 场合 中 ， 其 实 都 意味 着 “大 于 


所 有 多 项 式 的 任意 运行 时 间 ”。 

在 多 项 式 与 指数 之 间 的 函数 的 例子 是 nos2”。 这 个 函数 比 n 的 任何 多 项 式 都 增长 得 快 ， 因 
为 log n 最 终 (对 于 大 的 n) 变 得 比 任何 常数 k 都 大 。 另 一 方面 ，ns2" = 20os2r?， 如 果 看 不 出 为 
什么 相等 ， 就 在 两 边 取 对 数 。 对 于 任意 c > 0， 这 个 函数 都 比 2” 增长 得 更 慢 。 也 就 是 说 ， 无 
论 正 的 常数 c 多 么 小 ， 最 终 cn 都 变 得 比 (logzn)? 大 。 





10.1.2 例子 : 克 鲁 斯 卡尔 算法 


读者 也 许 熟 悉 具 有 有 效 解法 的 许多 问题 ， 也 许 在 关于 数据 结构 和 算法 的 课程 中 学 过 一 些 、 
这 些 问题 一 般 都 属于 2。 本 节 将 考虑 一 个 这 样 的 问题 ; 求 图 的 最 小 生成 树 (minimum-weight 
spanning tree,MVWST ) 。 

非 形式 化 地 ， 可 把 图 当 作 如 图 10-1 所 示 的 示意 图 。 存 在 着 顶点 (在 
本 例 的 图 中 这 些 顶 点 编号 为 1~4)， 一 些 顶 点 对 之 闻 存 在 着 边 。 每 条 边 
都 有 整数 权 。 生 成 树 是 连通 所 有 顶点 而 不 存在 回路 的 边 的 子 集合 。 生 
成 树 的 例子 如 图 10-1 所 示 ， 生 成 树 是 用 粗 线 画 出 的 三 条 边 。 最 小 生成 树 
在 所 有 生成 树 中 具有 最 小 可 能 的 边 权 总 和 。 

求 MWST 存 在 着 著名 的 “贪心 ”算法 ， 即 所 谓 克 重 斯 卡尔 算法 
(Kruskal's Algorithm)。 下 面 是 关键 思想 的 非 形式 化 概述 

1. 利 用 树 中 到 目前 为 止 已 经 选择 的 任何 边 ， 记 录 每 个 顶点 所 属 的 ”图 10-1 一 个 图 ， 用 粗 线 

连通 分 支 。 开 始 时 没有 选择 任何 边 ， 所 以 每 个 顶点 属于 由 自身 ”“”“ 表示 最 小 生成 树 

日 或 者 说 “计算 复杂 度 ”。 一 一 译 者 注 


© J.B. Kruskal Jr., “On the shortest spanning subtree of a graph and the traveling salesman problem,” Proc. AMS 
7:1(1956), pp.48-50. 
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构成 的 连通 分 文 。 

2. 考虑 还 没有 考虑 过 的 权 最 小 的 边 ; 随便 地 打破 平局 。 如 采 这 条 边 连 接 目 前 属于 不 同 连 通 
分 支 的 两 个 项 点 ， 则 
(a) 为 生成 树 选 择 这 条 边 ， 并 且 
(b) 合并 所 涉及 的 两 个 连通 分 支 ， 把 其 中 一 支 所 有 顶点 的 分 支 号 改 成 与 男 一 支 的 分 支 号 相 

同 。 
男 一 方面 ， 如 采 所 选择 的 边 连 接着 同一 连通 分 支 的 两 个 顶点 ， 则 这 个 边 不 属于 生成 树 ， 这 
个 边 将 产生 回路 。 

3. 继续 芳 虑 边 ， 直 到 已 经 考虑 了 所 有 边 或 者 为 生成 树 选 择 的 边 数 比 顶 点 数 少 一 为 止 。 注 意 

在 后 一 种 情形 下 ， 所 有 顶点 一 定 属于 同一 连通 分 支 ， 可 停止 考虑 边 。 


例 10.1 ”在 图 10-1 的 图 中 ， 首 先 考虑 边 (1, 3)， 这 条 边 具 有 最 小 权 10。1 和 3 在 开始 时 属于 不 
同 分 支 ， 所 以 接受 这 条 边 ， 让 1 和 3 具有 相同 分 支 号 ， 比 方 说 “分 支 1” 。 按 照 权 的 顺序 ， 下 一 条 
边 是 (2, 3)， 这 条 边 具 有 权 12。2 和 3 属 不 同 分 支 ， 所 以 接受 这 条 边 并 把 顶点 2 合并 到 “分支 1”。 第 
三 条 边 是 (1, 2)， 这 条 边 具 有 权 15。 但 1 和 2 现在 属于 同一 连通 分 支 ， 所 以 拒绝 这 条 边 并 继续 处 理 
到 第 四 条 边 (3, 4)。4 不 属 “ 分 支 1”"， 所 以 接受 这 条 边 。 现 在 4 个 顶点 的 图 的 生成 树 有 3 条 边 ， 所 以 
可 停止 。 前 


在 m 个 顶点 和 e 条 边 的 图 上 ， 有 可 能 在 O(m + e log e) 时 间 里 (用 计算 机 而 不 是 用 图 灵机 ) 来 
实现 这 个 算法 。 更 简单 且 更 易 理解 的 实现 分 成 e 轮 来 进行 。 用 表 给 出 每 个 顶点 的 当前 分 支 。 在 
0O(e) 时 间 里 挑选 剩 下 的 最 小 权 边 ， 在 O(m) 时 间 内 找 出 这 条 边 连 接 的 两 个 顶点 的 分 支 。 如 果 这 两 
个 顶点 属于 不 同 分 支 ， 就 扫描 顶点 表 ， 在 O(m) 时 间 里 合并 具有 这 两 种 分 支 号 的 所 有 顶点 。 这 个 
算法 花费 Ole(e + m)) 总 时 间 。 该 运行 时 间 是 输入 “规模 ”的 多 项 式 ， 输 入 规模 可 非 形式 化 地 取 
为 e 与 m 之 和 。 

把 上 述 想 法 翻译 到 图 灵机 时 会 遇 到 几 个 问题 

“研究 算法 时 ， 遇 到 要 求 各 式 各 样 输 出 的 “问题 "， 比 如 MWST 中 的 边 表 。 讨 论 图 灵机 时 ， 

只 能 认为 问题 是 语言 ， 仅 有 的 输出 为 yes 或 no， 即 接受 或 拒绝 。 例 如 ，MWST 问 题 可 用 语 
言 表达 成 :“ 给 定 这 个 图 G 和 限制 W，G 是 否 具有 权 不 超过 W 的 生成 树 ? ”这 个 问题 似乎 比 
熟悉 的 MWST 问 题 更 容易 回答 ， 因 为 甚至 不 知道 生成 树 是 什么 。 但 是 在 难 解 性 理论 中 ， 一 
般 希 望 论证 问题 是 困难 的 而 不 是 容易 的 ， 问 题 的 “是 一 否 ” 版 本 是 困难 的 这 一 事实 就 蕴涵 
着 (必须 计算 完整 答案 的 ) 更 标准 的 版 本 也 是 困难 的 。 

* 尽 管 可 能 非 形 式 化 地 认为 图 的 “规模 ”是 图 的 顶点 数 或 边 数 ， 但 TM 的 输入 是 有 穷 字 母 表 
上 的 串 。 因 此 必须 适当 地 编码 诸如 顶点 和 边 这 样 的 问题 元 素 。 这 个 要 求 导致 图 灵机 的 输入 
一 般 比 输入 的 直观 “规模 ” 稍 长 一 些 。 但 有 两 个 理由 说 明 为 什么 这 个 差别 不 重要 ，; 

1) 图 灵机 输入 串 规模 与 非 形式 化 问题 输入 规模 之 间 的 差别 ， 从 来 不 会 超过 一 个 小 的 因子 ， 
通 前 是 输入 规模 的 对 数 。 因 此 ， 凡 是 采用 一 种 度量 可 以 在 多 项 式 时 间 里 完成 的 ， 采 用 另 
一 种 度量 也 可 以 在 多 项 式 时间 里 完成 。 

2) 表示 输入 的 串 的 长 度 ， 其 实 更 精确 地 度量 了 真实 计算 机 为 了 得 到 输入 而 不 得 不 读 的 字 节 


~ 
co 
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数 。 例 如 ， 如 采用 整数 来 表示 项 点 ， 则 表示 整数 所 需要 的 字 节 数 就 与 整数 规模 的 对 数 成 
比例 ， 而 不 是 “对 任何 顶点 都 用 1 个 字 有 ， 在 输入 规模 的 非 形式 化 说 明 里 可 能 是 这 样 设 


想 的 
HL AN o 


例 10.2 ”考虑 一 种 候选 编码 ， 来 表示 可 能 作为 MWST 问 题 输入 的 图 和 权限 制 。 编 码 有 五 种 
符号 : 0，1， 左 括号 ， 右 括号 ， 到 号 。 
1. 把 从 1 到 mm 的 整数 分 配给 顶点 。 
2. 编码 从 二 进 制 的 m 值 和 二 进 制 的 权限 制 W 开 始 ， 用 逗号 分 隔 。 
3. 如 果 在 顶点 评 W 之 间 有 权 为 w 的 边 ， 则 在 编码 中 加 入 (i,j, w)。 整 数 i,j, w 都 用 二 进 制 编码 。 
在 一 条 边 之 内 评 Hj 的 顺序 以 及 在 编码 中 边 的 顺序 都 是 无 关 紧 要 的 。 
因此 对 于 图 10-1 中 带 有 限制 W = 40 的 图 ， 一 种 候选 编码 就 是 
100, 101000(1, 10, 1111)(1, 11, 1010, )(10, 11, 1100)(10, 100, 10100)(11, 100, 10010) 站 


人 
MD 
‘DO 


如 采 像 例 10.2 中 那样 表示 MWST 和 9 题 的 输入 ， 则 长 度 为 n 的 输入 至 多 可 表示 O(n / log nn) 条 边 。 
如 霖 只 有 非常 少 的 边 ， 则 顶点 数 m 可 能 是 n 的 指数 。 但 除非 边 数 e 至 少 为 m 一 1， 否 则 无 论 是 些 什 
么 边 ， 图 都 不 可 能 连通 ， 因 此 没有 任何 MWST。 所 以 如 果 顶 点 数 达 不 到 至 少 与 n / log n 成 比例 ， 
则 根本 没有 必要 运行 克 和 鲁 斯 卡尔 算法 ， 只 要 说 “ 否 ; 没有 带 有 这 个 权 的 生成 树 ”。 
因此 ， 如 果 克 和 鲁 斯 卡尔 算法 的 运行 时 间 具 有 作为 m 和 e 的 函数 的 上 界 ， 比 如 上 面 得 出 的 
O(e(m + e)) 上 界 ,， 就 可 适当 地 把 m 和 e 都 换 成 x, 并 说 运行 时 间作 为 输入 长 度 n 的 函数 是 O(n(n + nn))， 
即 O(m?)。 事 实 上 克 和 鲁 斯 卡尔 算法 的 更 好 的 实现 只 花费 O(n log n) 时 间 ， 不 过 这 里 没有 必要 关心 这 
个 改进 。 
当然 ， 现 在 是 用 图 灵机 作为 计算 模型 ， 而 我 们 描述 的 算法 本 来 打算 用 具备 有 用 数据 结构 
(比如 数组 和 指针 ) 的 程序 设计 语言 来 实现 。 但 是 可 以 断言 在 多 带 TM 上 能 在 O(n”) 步 之 内 实现 上 
述 克 鲁 斯 卡尔 算法 。 用 附加 的 带 做 以 下 几 项 工作 : 
1. 能 用 一 条 带 保存 顶点 及 其 当前 分 支 号 。 这 个 表 的 长 度 为 O(n)。 
2. 能 用 一 条 带 在 扫描 输入 带 上 的 边 时 ,保存 从 尚未 被 标记 “用 过 ”的 边 中 找到 的 当前 最 小 
权 边 。 可 能 用 输入 带 的 第 二 个 道 来 标记 算法 在 过 去 某 一 轮 中 所 选中 的 剩余 最 小 权 边 。 扫 
接 最 小 权 的 尚未 标记 边 ， 这 花费 O(n) 时 间 ， 因 为 每 条 边 只 考虑 一 次 ， 能 通过 线性 从 右 向 
左 扫 拉 二进制 数 来 实现 权 的 比较 。 
3. 在 一 轮 中 选择 一 条 边 时 ， 把 这 条 边 的 两 个 端点 写 在 带 上 。 搜 索 顶 点 和 分 支 表 来 找 出 这 两 
430 个 端点 的 分 支 。 这 个 任务 花费 O(n) 时 间 。 
4. 当 找到 一 条 边 连 接 两 个 过 去 不 连通 的 分 支 时 ， 能 用 一 条 带 保存 正在 合并 的 两 个 分 支 ; 和 六 
然后 扫描 顶点 和 分 支 表 ， 几 是 发 现 属于 分 支 的 顶点 ， 就 把 这 个 顶点 的 分 支 号 改 为 j。 这 个 
扫 拉 也 花费 O(0o) 时 间 。 
应 当 能 够 就 此 完成 证 明 : 能 在 多 带 TM 上 在 CC 时 间 里 执行 一 轮 。 轮 数 e 至 多 为 m， 所 以 结论 
是 : 在 多 带 TM 上 O(2 时 间 就 足够 了 。 现 在 回忆 定理 8.10， 该 定理 说 : 凡是 多 带 TM 在 s 步 之 内 能 
做 到 的 ， 单 带 TM 在 O(s”) 步 之 内 也 能 做 到 。 因 此 ， 如 果 多 带 TM 花 费 O(n?) 步 ， 则 能 构造 单 带 TM 


难 解 问题 293 
在 O(0z2)2) = O09 步 之 内 做 同样 事情 。 结 论 是 : MWST 问 题 的 “是 - 否 ” 版 本 〈 “图 G 是 否 具 有 总 
权 不 超过 W 的 MWST”) 属于 2。 


10.1.3 非 确定 型 多 项 式 时 间 


难 解 性 研究 中 基本 的 问题 类 是 在 多 项 式 时 间 里 运行 的 非 确定 型 TM 能 解答 的 问题 。 形 元 化 地 
说 ， 如 果 存 在 非 确定 型 TM M 和 多 项 式 时 间 复 杂 性 7T(n) 使 得 语言 L = LM)， 并 且 当 给 定 M 长 度 为 n 
的 输入 时 ，M 没 有 移动 序列 超过 7T(n) 步 ， 则 说 L 属 于 NP 类 ( 非 确定 型 多 项 式 )。 

第 一 个 事实 是 :因为 每 台 确 定型 TM 都 是 从 来 也 不 选择 移动 的 非 确定 型 TM， 所 以 ? 和 Wz。 
但 WP 似乎 包含 了 许多 不 属于 P 的 问题 。 直 觉 的 理由 是 在 多 项 式 时 间 里 运行 的 NTM 有 能 力 猜 测 问 
题 的 指数 个 可 能 解 ， 并 在 多 项 式 时 间 里 “并 行 地 ”验证 每 个 解 。 无 论 如 何 : 

。 是 否 2 = NWP， 即 是 否 NTM 在 多 项 式 时 间 里 能 做 到 的 每 一 件 事情 事实 上 DTM 在 多 项 式 时 间 

(也 许 更 高 次 的 多 项 式 ) 里 也 能 做 到 ， 这 是 数学 中 最 深奥 的 未 解决 问题 之 一 。 


非 确 定型 接受 性 的 一 种 变化 


注意 ， 前 面 要 求 NTM 无 论 是 否 接受 ， 沿 着 所 有 分 支 都 在 多 项 式 时 间 内 停机 。 本 来 也 可 
以 只 在 那些 导致 接 受 的 分 支 上 施加 多 项 式 时 间 限 制 T(n)， 即 本 来 可 以 把 Np 定义 成 NTM 所 接 
受 的 使 得 如 果 NTM 接 受 ， 则 对 于 某 个 多 项 式 7(n)， 至 少 有 一 个 至 多 有 7(n) 步 的 移动 序列 接 
受 的 语言 。 


但 是 ， 假 如 这 样 做 了 ， 也 还 是 得 到 同样 的 语言 类 。 因 为 如 果 知 道 了 若 M 从 根本 上 说 接 


受 ， 则 M 在 T(n) 步 移动 之 内 接受 ， 那 就 可 以 修改 M， 在 其 带 上 一 个 独立 的 道上 计数 直到 Tn)， 
如 果 超 过 了 计数 7T(n) 还 不 接受 就 停机 。 这 个 修改 过 的 M 可 能 花费 O(T?(n)) 步 ， 但 是 如 果 T(n) 
是 多 项 式 时 间 ， 则 TP(m) 也 是 。 

事实 上 本 来 也 可 以 这 样 定义 ?: 对 于 某 个 多 项 式 T(n)， 通 过 在 时 间 7T(n) 内 接受 的 TM 的 接 
受 性 。 这 些 TM 如 果 不 接受 就 可 能 不 停机 。 但 是 通过 与 NTM 同 样 的 构造 ， 就 可 以 修改 DTM 
计数 直到 7T(n)， 如 果 超 过 这 个 限度 就 停机 。 这 样 的 DTM 将 在 O(T2(n)) 时 间 内 运行 。 





10.1.4 WP 例子 : 货 郎 问题 


为 了 感受 WP 的 能 力 ， 本 节 将 考虑 贷 朗 问题 (Traveling Salesman Problem, TSP) ， 这 个 问题 
似乎 属于 NP 而 不 属于 了 。TSP 的 输入 与 MWST 一 样 ， 是 边 上 带 有 整数 权 的 图 (如 图 10-1 所 示 ) 
和 权 的 限制 WW。 询问 的 问题 是 : 图 是 否 上 共有 总 权 至 多 为 W 的 “哈密 顿 回 路 ”"。 哈 帘 顿 回路 是 把 顶 
点 连接 成 单个 回路 且 每 个 顶点 恰好 出 现 一 次 的 边 的 集合 。 注 意 ， 哈 密 顿 回路 的 边 数 一 定 等 于 图 
的 顶点 数 。 


例 10.3 ”图 10-1 中 的 图 其 实 只 有 一 条 哈密 顿 回路 : (1, 2, 4, 3, 1) 回路 。 该 回路 的 总 权 为 15 + 
20+ 18 + 10 =63。 因 此 ， 若 W 是 63 或 更 大 ， 则 答案 为 “是 ， 独 友 < 63， 则 答案 为 否 。 
但 4 个 顶点 的 图 上 的 TSP 简 单 得 带 有 欺骗 性 ， 因 为 一 旦 考虑 到 同一 回路 可 在 不 同 顶 点 处 开始 ， 


294 锣 70 章 


并 考虑 到 周游 回路 的 方向 ， 就 决 不 会 存在 超过 3 条 的 不 同 哈密 顿 回 路 。 在 有 m 个 顶点 的 图 中 ， 不 
同 的 回路 数 以 Ol(m!) (m 的 阶乘 ) 的 速度 增长 ， 对 于 任何 常数 c<，O(m1) 最 终 大 于 2"。 口 


所 有 解答 TSP 的 方法 似乎 都 涉及 到 ， 在 本 质 上 尝试 所 有 回路 并 计算 回路 的 总 权 。 如 果 聪 明 的 
话 ， 就 能 消除 一 些 明 显 的 坏 的 选择 。 但 无 论 做 什么 ， 如 果 在 考虑 回路 的 顺序 上 缺乏 运气 ， 则 在 
确认 没有 满足 权限 制 W 的 回路 或 找到 这 样 的 回路 之 前 ， 似 乎 一定 要 检查 指数 个 回路 。 

另 一 方面 ， 假 如 拥有 非 确定 型 计算 机 ， 就 能 猜测 顶点 排列 ， 计 算 按照 这 个 顺序 排列 的 顶点 
回路 的 总 权 。 假 如 存在 非 确定 型 真实 计算 机 ， 则 如 果 输 入 长 度 为 +:， 就 没有 分 支 会 使 用 超过 O(n) 
步 。 在 多 带 NTM 上 可 在 O(n”) 步 之 内 猜测 排列 并 在 类 似 时 间 里 检查 总 权 。 因 此 ， 单 带 NTM 在 至 多 
O(n) 时 间 里 能 解答 TSP。 结 论 是 : TSP 属 于 NP。 


10.1.5 多 项 式 时 间 归 约 


证 明 在 多 项 式 时 间 里 不 能 解答 问题 P。( 即 P, 不 属于 Pp) 的 主要 方法 是 :把 已 知 不 属于 Pp 的 问 
题 P 归 约 到 P, 上 。9 这 种 方法 已 在 图 8-7 中 提 过 ， 此 处 复制 下 来 作为 图 10-2。 


实例 构造 实例 yes 


no 


图 10-2 重 绘 的 归 约 图 


假设 想 要 证 明 命 题 “ 若 P 属 于 P， 则 Pl 属于 P”。 由 于 断言 Pi 不 属于 P， 于 是 可 能 断言 Py 也 不 
属于 P。 但 仅仅 存在 图 10-2 中 标记 为 “构造 ”的 算法 还 不 足以 证 明 想 要 的 命题 。 

例如 ,假设 当 给 定 长 度 为 m 的 Pi 实例 时 ， 算 法 产生 长 度 为 2" 的 输出 串 ， 把 这 个 串 输入 到 假设 
中 的 多 项 式 时 间 的 P, 的 算法 中 。 如 果 这 个 判定 算法 在 O(nt) 时 间 里 运行 ， 则 在 长 度 为 27 的 输入 上 
将 在 0(2™ ) 时 间 里 运行 ， 这 个 时 间 是 m 的 指数 。 因 此 ， 当 给 定 长 度 为 m 的 输入 时 ，Pi 的 判定 算法 
花费 m 的 指数 时 间 。 这 些 事 实 完全 与 P 属 于 ?而 Pl 不 属于 2 的 情况 相 吻合 。 

即使 从 Pi 实例 构造 P; 实 例 的 算法 总 是 产生 输入 规模 的 多 项 式 长 度 的 实例 ， 仍 然 可 能 得 不 到 
想 要 的 结论 。 例 如 ,假设 所 构造 的 P, 实 例 与 Pi 实例 具有 相同 的 规模 m， 而 构造 算法 本 身 花 费 m 的 
指数 时 间 ， 比 方 说 0(2") 时 间 。 现 在 ，P, 的 判定 算法 在 长 度 为 的 输入 上 花费 多 项 式 时 间 O(nt)， 
这 仅 强 涵 着 存在 Pi 的 判定 算法 在 长 度 为 m 的 输入 上 花费 O(2" + m*) 时 间 。 这 个 运行 时 间 界 考虑 了 
这 样 的 事实 ， 即 必须 完成 到 P; 的 变换 并 解答 所 得 到 的 P, 实 例 。 还 是 有 可 能 P; 属 于 2 而 Pi 不 属 
利和 

在 从 Pi 到 P, 的 变换 上 施加 的 正确 限制 是 ， 这 个 变换 需要 输入 长 度 的 多 项 式 时 间 。 注 意 ， 如 


末 变 换 在 长 度 为 m 的 输入 上 花费 Om ) 时 间 ， 则 P; 的 输出 实例 不 可 能 比 所 花费 的 步 数 还 长 ， 即 这 


日 ”这 名 话 有 点 不 准确 。 在 实践 中 ， 只 是 假设 Pi 不 属于 P， 这 利用 了 Pi 是 “NP 完全 的 ”( 在 10.1.6 节 讨论 这 个 概念) 
这 个 非常 强 有 力 的 证 据 。 然 后 证 明 P; 也 是 “NP 完全 的 "， 因 此 这 就 同样 强烈 地 提示 了 P; 不 属于 P。 
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个 实例 的 长 度 至 多 是 cm/，c 是 某 个 常数 。 现 在 可 以 证 明 : 若 P 属 于 P， 则 户 属 于 2。 

为 了 证 明 ， 假设 在 O(n*) 时 间 里 能 判定 长 度 为 n 的 串 是 否 属于 P,。 于 是 在 Olmi + (cm )“) 时 间 
里 能 判定 长 度 为 m 的 串 是 否 属于 P1; mi 这 一 项 对 应 于 做 变换 的 时 间 ，(cxw 关 这 一 项 对 应 于 判定 所 
得 出 的 P, 实 例 的 时 间 。 化 简 这 个 表达 式 ， 可 以 看 出 在 Olmi + cmx*) 时 间 里 能 解决 PI。 由 于 c, j,k 都 
是 常数 ， 所 以 这 个 时 间 是 m 的 多 项 式 ， 结 论 是 : Pl 属于 ?2。 

因此 ， 在 难 解 性 理论 中 将 只 使 用 多 项 式 时 间 归 约 。 如 果 从 Pi 到 P; 的 归 约 花费 的 时 间 是 Pi 实例 
长 度 的 某 个 多 项 式 ， 则 这 个 归 约 是 多 项 式 时 间 的 。 注 意 ， 作 为 一 个 推论 ，P; 实 例 将 具有 Pi 实例 
长 度 的 多 项 式 长 度 。 


10.1.6 NP 完全 问题 


下 面 将 遇 到 最 著名 的 属于 Nz 而 不 属于 2 的 候选 问题 族 。 设 L 是 NP 中 的 一 个 语言 (问题 )。 
如 果 下 列 关于 LL 的 命题 为 真 则 说 L 是 NP 完全 的 : 

1. 工 属于 ylP。 

2. 对 于 WP 中 每 个 语言 L'， 都 存在 着 从 L' 到 L 的 多 项 式 时间 归 约 。 

即将 看 到 ， 一 个 NP 完全 问题 的 例子 是 货 郎 问题 ， 货 郎 问 题 在 10.1.4 节 中 介绍 过 。 由 于 似 平 
P 关 WNP， 具体 地 说 ， 似 乎 所 有 NP 完全 问题 都 属于 NP-P， 所 以 通常 认为 ， 一 个 问题 的 NP 完全 性 
证 明 就 是 这 个 问题 不 属于 2 的 证 明 。 

通过 证 明 每 个 多 项 式 时 间 NTM 的 语言 都 有 到 所 谓 SAT 问 题 的 多 项 式 时 间 归 约 ， 将 证 明 第 一 
个 NP 完全 问题 SAT (表示 布尔 可 满足 性 ) 。 但 是 ， 一 旦 有 了 一 些 NP 完 全 问题 ， 则 通过 使 用 多 项 
式 时 间 归 约 ， 把 某 个 已 知 NP 完全 问题 归 约 到 新 的 问题 上 ， 就 能 证 明 新 的 问题 是 NP 完全 的 。 下 列 
定理 说 明 为 什么 这 样 的 归 约 证 明 目 标 问 题 是 NP 完全 的 。 


定理 10.4 ”车 P1 是 NP 完全 的 ， 并且 存 在 从 Pi 到 PP; 的 多 项 式 时 间 归 约 ， 并 且 P2 属 于 NWP， 则 P， 
是 NP 完全 的 。 

证 明 ”需要 证 明 WP 中 每 个 语言 L 都 多 项 式 时 间 归 约 到 P;。 已 知 存在 从 L 到 Pi 的 多 项 式 时 间 归 
约 ;， 这 个 归 约 花费 某 个 多 项 式 时 间 p(n)。 因 此 ， LL 中 长 度 为 n 的 串 w 转 换 成 Pi 中 长 度 至 多 为 p(n) 的 
串 x。 

还 已 知 存 在 从 Pi 到 P; 的 多 项 式 时 间 归 约 ; 设 这 个 归 约 花费 多 项 式 时 间 4qlm)。 于 是 这 个 归 约 至 
多 花费 q(p(n)) 时 间 把 x 变换 成 P; 中 某 个 串 y。 因此， 从 w 到 y 的 变换 至 多 花费 p(n) + q(p(n)) 时 间 ， 这 
个 时 间 是 多 项 式 的 。 结 论 是 : L 可 多 项 式 时 间 归 约 到 P,。L 可 能 是 NP 中 任意 语言 ， 所 以 已 经 证 明 
NP 的 所 有 语言 都 多 项 式 时 间 归 约 到 P,， 即 P 是 NP 完全 的 。 口 


还 要 证 明 一 个 更 重要 的 关于 NP 完全 问题 的 定理 : 如 果 任 何 一 个 NP 完 全 问题 属于 2， 则 所 有 
NP 问题 都 属于 2P。 由 于 人 们 深信 ，XzP 中 有 许多 问题 不 属于 ?2， 因 此 就 把 一 个 问题 是 NP 完全 的 这 
样 的 证 明 当 作 这 个 问题 没有 多 项 式 时 间 算 法 ， 因 此 没有 好 的 计算 机 解法 的 同等 证 明 。 


定理 10.5 车 某 个 NP 完全 问题 P 属 于 P， 则 P= NP。 
”证 明 ”假设 P 既 是 NP 完全 的 又 属于 P。 则 Nz 中 所 有 语言 L 都 在 多 项 式 时 间 里 归 约 到 P。 在 


~ 
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10.1.5 市 中 曾 讨论 过 ， 若 P 属 于 2,， 则 LL 属于 2。 加 


NP 难 问题 


有 些 问题 L 是 如 此 地 困难 ， 以 致 于 虽然 能 证 明 NP 完全 性 定义 中 条 件 (2) (X2 中 每 个 语言 
都 在 多 项 式 时 间 里 归 约 到 L)， 但 不 能 证 明 条 件 (1): LL 属于 Nz。 如 果 是 这 样 ， 就 称 L 为 NP 难 
的 。 先 前 已 经 用 非 形式 化 术语 “ 难 解 的 ”来 指 似乎 需要 指数 时 间 的 问题 。 虽 然 在 原则 上 ， 
可 能 有 一 些 问题 需要 指数 时 间 ， 而 在 形式 化 意义 上 却 不 是 NP 难 的 ， 但 是 用 “ 难 解 的 ”来 表 
示 “NP 难 的 "， 这 是 被 普遍 接受 的 。 

证 明 ZL 旦 NP 难 的 ， 就 足以 证 明 L 非 常 可 能 需要 指数 时 间或 更 糟糕 。 但 是 如 果 L 不 属于 Np， 
则 ZL 明显 的 困难 性 并 不 支持 论证 所 有 NP 完全 问题 都 是 困难 的 。 也 就 是 说 ， 也 许 事实 是 了 = WP 
而 ZL 仍然 需 要 指数 时 间 。 


其 他 的 NP 完全 性 概念 


NP 完全 性 研究 的 目标 其 实 是 定理 10.5， 也 就 是 说 ， 识 别 出 这 样 的 问题 P，P 在 ?类 中 出 
现 束 缠 涵 着 了 = NXP。 前面 所 用 的 “NP 完全 ”的 定义 (通常 被 称 为 卡 普 完 全 性 ， 因 为 R. 卡 普 
(R. Karp) 在 关于 本 主题 的 黄 基 性 论文 中 首次 使 用 了 这 个 概念 ) 适合 于 描述 每 一 个 人 们 有 
理由 相信 它 满足 定理 10.5 的 问题 。 但 是 ， 存 在 着 其 他 更 宽泛 的 NP 完全 性 概念 ， 这 些 概念 也 
允许 断言 定理 10.5。 


例如 ，S. 库 殉 〈S. Cook) 在 关于 本 主题 的 创始 性 论文 中 定义 了 : 如 果 给 定 问题 P 的 外 
部 信息 源 〈 即 在 一 个 单位 时 间 里 ， 能 回答 关于 给 定 串 是 否 属于 P 这 样 的 任意 问题 的 一 种 机 
制 )， 就 能 在 多 项 式 时间 里 识别 NP 中 任意 语言 ， 那 么 问题 P 就 是 “NP 完全 的 ”"。 这 种 类 型 的 
NP 完全 性 被 称 为 库 克 完全 性 。 在 某 种 意义 下 ， 卡 普 完 全 性 是 只 询问 外 部 信息 源 一 个 问题 的 
特殊 情形 。 但 是 ， 库 克 完 全 性 还 允许 对 答案 取 反 ， 比 如 ， 可 能 询问 外 部 信息 源 一 个 问题 ， 
然后 把 外 部 信息 源 的 回答 的 否定 作为 答案 。 库 克 的 定义 的 一 个 后 果 是 :NP 完全 问题 的 补 间 
题 也 是 NP 完全 的 。 像 本 书 这 样 ， 采 用 更 严格 的 卡 普 完 全 性 的 概念 ， 就 能 在 11.1 节 中 ， 在 NP 
完全 问题 (在 卡 普 意 义 下 ) 及 其 补 问题 之 间 做 出 重要 的 区 别 。 





10.1.7 习题 


习题 10.1.1 假设 对 图 10-1 中 边 的 权 进行 如 下 修改 。 得 出 的 MWST 可 能 是 什么 ? 
* a) 把 (1, 3) 边 上 的 权 10 改 成 25。 
b) 与 上 一 问 不 同 ， 把 (2,4) 边 上 的 权 改 成 16。 
习题 10.1.2 ”如 果 修 改 图 10-1 中 的 图 ， 在 顶点 1 和 4 之 间 增 加 权 为 19 的 边 ， 则 最 短 哈密 顿 回路 
是 什么 ? 
*! 习题 10.1.3 ”假设 存在 一 个 NP 完全 问题 ， 这 个 问题 具有 花费 O(nosz") 时 间 的 确定 型 解法 。 注 
意 , 这 个 函数 介 于 多 项 式 与 指数 之 间 ， 并 且 不 属于 这 两 类 函数 。 关 于 NP 中 任意 问题 的 运行 时 间 ， 
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能 得 出 什么 结论 ? 132 
!! 习题 10.1.4 ”考虑 这 样 的 图 : 顶点 都 是 边 长 为 m 的 n 维 立方 体 中 的 格 点 ， 即 顶点 都 是 向 量 (ii， L436 
,…, 记 )， 每 个 都 在 从 1 到 m 中 的 范围 中 。 在 两 个 顶点 之 间 有 边 ， 当 且 仅 当 这 两 个 顶 反 恰 好 在 一 
个 维度 上 相差 1。 例 如 , 天 = 2 和 mm = 2 的 情形 是 正方 形 ，n = 3 和 m = 2 的 情形 是 立方 体 ，n = 2 和 m 
= 3 的 情形 如 图 10-3 所 示 。 其 中 有 些 图 有 哈密 顿 回路 ， 而 有 些 则 没有 。 
例如 ， 正 方形 显然 就 有 ， 立 方 体 也 有 ， 而 这 一 点 可 能 并 不 明显 ;一 种 
P00 ORD DO NOR 和 > (EL TEE 人 
0,0) 并 返回 (0,0,0)。 图 10-3 没 有 哈密 顿 回 路 。 
a) 证 明 : 图 10-3 没 有 哈密 顿 回路 。 提 示 : 考虑 一 下 ， 当 假设 的 哈密 
顿 回路 通过 中 间 的 顶点 时 ， 将 出 现 什么 情况 ? 这 条 回路 要 从 何 
处 来 ， 又 向 何 处 去 ， 才 能 不 从 哈密 顿 回 路 上 切割 下 一 块 图 来 ? 
b) 对 于 哪些 n 和 m 值 ， 存 在 着 哈密 顿 回路 ? 图 10-3 n=2 和 m = 3 的 图 
! 习题 10.1.5 ”假设 采用 某 个 有 穷 字 母 表 对 上 下 文 无 关 文 法 进行 编 
码 。 考 虑 下 面 两 个 语言 : 
1.7 = { (G, 4, B)1G 是 (经 过 编码 的 ) CFG，A 和 B 是 G 的 (经 过 编码 的 ) 变 元 ， 且 从 A 和 B 
推导 出 的 终结 符号 串 的 集合 是 相等 的 }。 
2. 了 =《{(Gi, G2)1Gi 和 G2 是 (经 过 编码 的 ) CFG， 并 且 L(G1) = L(G,) }。 
回答 下 列 问 题 : 
* a) 证 明 : 工 多 项 式 时 间 归 约 到 LL。 
b) 证 明 : 蕊 多 项 式 时 间 归 约 到 Li。 
* Cc) 关于 Li 和 是 NP 完全 的 或 者 不 是 ， 从 (a) 和 (b) 能 得 出 什么 结论 ? 
习题 10.1.6 Z2P 和 NP 作为 语言 类 都 有 茶 些 封闭 性 。 证 明 : 2 对 下 面 每 种 运算 都 是 封闭 的 : 
a) 反 转 。 
*b) 并 。 
*! c) 连接 。 
! d) 闭 包 ( 星 号 )。 
e) 逆 同 态 。 
* 了 补 。 
习题 10.1.7 NP 对 于 习题 10.1.6 中 为 ?列举 的 每 种 运算 也 是 封闭 的 ， 其 中 有 一 个 (假设 中 的 ) 
例外 : (f) 补 。 还 不 知道 NP 对 于 补 是 否 封闭 ， 在 11.1 节 要 进一步 讨论 这 个 问题 。 证 明 : 习题 
10.1.6 中 从 (a) 到 (e) 对 于 NP 成 并 。 437 


10.2 NP 完全 问题 


现在 介绍 第 一 个 NP 完全 问题 。 通 过 把 任意 确定 型 多 项 式 时 间 TM 的 语言 归 约 到 可 满足 性 问 
题 上 ， 来 证 明 这 个 问题 (布尔 表达 式 是 否 是 可 满足 的 ) 是 NP 完全 的 。 


10.2.1 可 满足 性 问题 
布尔 表达 式 是 用 下 面 这 些 元 素来 建立 的 : 


298 萝 10 章 


1. 布尔 值 变 元 ， 即 这 些 变 元 取 值 1 ( 真 ) 或 0 〈 假 )。 

2. 二 元 运算 符 八 和 V ， 表 示 两 个 表达 式 的 逻辑 与 (AND) 和 人 逻辑 或 (OR)。 

3. 一 元 运算 符 ~， 表 示 逻 辑 非 。 

4: 给 运算 符 和 运算 对 象 分 组 的 括号 ， 必 要 时 改变 运算 的 默认 优先 级 : "最 高 ， 其 次 入， 最 
后 V 。 


例 10.6 布尔 表达 式 的 一 个 例子 是 zAnO'Vz3。 只 要 变 元 ?或 变 元 z 为 真 ， 子 表达 式 (y V z) 就 为 
真 ， 但 只 要 y 和 z 都 为 假 ， 这 个 子 表达 式 就 为 假 。 恰 好 当 yV z 为 假 ， 即 y 和 xz 都 为 假 时 ， 更 大 的 子 表 
达 式 -QV z) 为 真 。 如 果 y 和 和 z 有 一 个 为 真 或 两 个 都 为 真 ， 则 -Oy V z) 为 假 。 

最 后 孝 虑 整个 表达 式 。 整 个 表达 式 是 两 个 子 表达 式 的 逻辑 与 ， 所 以 恰好 当 两 个 子 表达 式 都 
为 真 时 整个 表达 式 为 真 。 换 句 话说， 恰好 当 x 为 真 、? 为 假 且 z 为 假 时 ，xA-(Gy'V z) 为 真 。 口 


给 定 的 布尔 表达 式 E 的 赋值 把 真 或 假 指派 给 E 中 出 现 的 每 个 变 元 。 给 定 赋值 7 后 ，E 的 值 记 做 
E(7)， 这 是 把 每 个 变 元 x 换 成 7 所 指派 的 值 7(x) ( 真 或 假 )， 并 对 E 求 值 的 结果 。 

如 霖 E(7T) = 1， 则 赋值 7 满足 布尔 表达 式 E， 即 赋值 7 让 表达 式 E 为 真 。 如 果 至 少 存 在 一 个 满足 
布尔 表达 式 E 的 赋值 7， 则 说 E 是 可 满足 的 。 


例 10.7 例 10.6 的 表达 式 x 人 -yyV 是 可 满足 的 。 已 经 看 出 ， 令 T(x) = 1, Ty) =0, T(z)=0， 这 
样 定义 的 赋值 满足 这 个 表达 式 ， 因 为 这 个 赋值 让 表达 式 的 值 为 真 (D)。 还 注意 到 ，7 是 这 个 表达 式 
的 惟一 可 满足 赋值 ， 因 为 这 三 个 变 元 的 其 余 七 种 组 合 都 让 表达 式 取 值 为 假 (0)。 

为 一 个 例子 ， 考 虑 表达 式 E = x 人 (~xVy) 人 -yy。 断 言 E 是 不 可 满足 的 。 因 为 只 有 两 个 变 元 ， 
赋值 个 数 是 2 = 4， 所 以 容易 试验 所 有 这 四 种 赋值 ， 并 验证 对 于 所 有 这 些 赋值 ，E 的 值 都 为 0。 但 
是 ， 还 可 以 论证 如 下 。 仅 当 信 连接 的 三 个 项 都 为 真 ，E 才 为 真 。 这 意味 着 x 一 定 为 真 (因为 第 一 
项 )，) 一 定 为 假 (因为 最 后 一 项 )。 但 在 这 个 赋值 下 ， 中 间 项 -x Vy 为 假 。 因 此 ，E 无 法 为 真 ， 事 
实 上 E 是 不 可 满足 的 。 

已 经 看 到 ， 表 达 式 恰好 有 一 个 可 满足 赋值 的 例子 ， 以 及 表达 式 没有 可 满足 赋值 的 例子 。 还 
有 许多 例子 ， 其 中 的 表达 式 有 多 于 一 个 可 满足 赋值 。 一 个 简单 的 例子 ， 考 虑 F = xV -=y。 对 于 下 
面 三 个 赋值 ，F 的 值 是 1: 

1.71(x)=1; TO)=1。 

2 “THR) = "1: TY) =0。 

3. 73(x) =0; T3y) =0。 

只 对 于 第 四 种 赋值 zx= 0 且 y = 1，F 才 取 值 0。 因 此 ，F 是 可 满足 的 。 口 


可 满足 性 问题 是 : 
* 给 定 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 吗 ? 


一 般 将 把 可 满足 性 问题 称 为 SAAT。 作 为 语言 来 说 ，SAT 问 题 是 (经 过 编码 的 ) 可 满足 布尔 表达 
式 的 集合 。 不 是 布尔 表达 式 的 有 效 编码 的 串 以 及 是 不 可 满足 的 布尔 表达 式 的 编码 的 囊 ， 都 不 属 
于 SATI。 | 


a we 


10.2.2 表示 SAT 实 例 


布尔 表达 式 中 的 符号 是 : A ，V ，”， 左 括号 ， 右 括号 ， 以 及 表示 变 元 的 符号 。 一 个 表达 式 
的 可 满足 性 不 依赖 于 这 些 变 元 的 名 称 ， 只 依赖 于 变 元 的 两 次 出 现 是 相同 的 变 元 还 是 不 同 的 变 元 。 
因此 ， 虽 然 在 例子 中 将 继续 采用 像 y 或 z 以 及 x 这 样 的 变 元 名 称 ， 但 是 可 以 假定 变 元 是 x1, x2,… 
还 将 假定 ， 变 元 经 过 重新 命名 ， 以 采用 尽 可 能 小 的 变 元 下 标 。 例 如 ， 除 非 在 同一 个 表达 式 中 已 
”经 用 过 了 x 到 x4， 否 则 就 不 应 当 使 用 xs。 

因为 在 原则 上 有 无 穷 多 个 符号 可 能 出 现在 布尔 表达 式 中 ， 所 以 又 遇 到 了 熟悉 的 问题 : 不 得 
不 设计 一 种 编码 ， 用 固定 的 有 穷 字母 表 来 表示 变 元 数 任意 大 的 表达 式 。 只 有 那样 ， 才 能 把 SAT 
当 作 “问题 ”来 谈论 ， 也 就 是 说 ， 把 SAT 当 作 固 定 字母 表 上 的 语言 ， 由 可 满足 的 布尔 表达 式 的 
编码 来 组 成 。 将 要 采用 的 编码 如 下 : 

1. 符 号 人 、V 、-、( 以 及 ) 就 用 其 本 身 来 表示 。 

2. 变 元 x 表示 成 符号 x 后 面 跟 着 用 二 进 制 表 示 i 的 0 和 1。 
因此 ，SAI 问 题 (语言 ) 的 字母 表 只 有 8 个 符号 。 所 有 的 SAT 实 例 都 是 这 个 固定 的 有 穷 字 母 表 上 
的 字符 串 。 


人 
LU 
‘OO 


例 10.8 ”考虑 例 10.6 中 的 表达 式 x 人 =-(yV z)。 在 对 其 编码 过 程 中 第 一 步 是 把 变 元 换 成 带 下 标 

的 x。 因 为 它 有 三 个 变 元 ， 所 以 必须 使 用 xi, xz, x3。 可 自由 决定 把 x; y, z 换 成 哪个 x;， 具 体 地 说 ， 设 
x 三 Xl1，》 = 加，z 三 X3。 于 是 这 个 表达 式 变 成 Wh 人 "(x2V%)。 这 个 表达 式 的 编码 是 : 

xl A (xlO0OVxl11) 吕 


注意 , 编码 过 的 布尔 表达 式 的 长 度 近 似 地 等 于 表达 式 中 的 位 置 数 , 每 次 变 元 出 现 算 作 1 个 位 置 ， 
不 完全 相等 的 原因 是 ， 如 果 表 达 式 有 m 个 位 置 ， 则 表达 式 可 有 OGm) 个 变 元 ， 所 以 给 变 元 编码 可 能 
花费 O(log m) 个 符号 。 因 此 ， 长 度 为 m 个 位 置 的 表达 式 能 有 长 度 为 n= O(m log 四 个 符号 的 编码 。 

不 过 ， 在 m 与 m log m 之 间 的 差别 确实 不 超过 多 项 式 。 因 此 ， 如 果 仅 仅 讨论 能 否 在 输入 规模 
的 多 项 式 时 间 里 解答 问题 ， 就 没有 必要 去 区 分 表达 式 的 编码 长 度 与 表达 式 的 自身 位 置 数 。 


10.2.3 ”SAT 问题 的 NP 完全 性 


现在 证 明 “ 库 克 定 理 ”"”， 即 SAT 是 NP 完全 的 事实 。 要 证 明 一 个 问题 是 NP 完全 的 ， 首 先 需 要 
证 明 这 个 问题 属于 XP。 然 后 ， 必 须 证 明 Xe 中 每 一 个 问题 都 归 约 到 所 讨论 的 这 个 问题 上 。 一 般 
说 来 ， 第 二 部 分 证 明 是 通过 给 出 从 某 个 其 他 NP 完 全 问题 出 发 的 多 项 式 时 间 归 约 ， 然 后 引用 定理 
10.4 来 完成 的 。 但 此 时 此 刻 ， 还 不 知道 任何 NP 完全 问题 可 用 来 归 约 到 SAT。 因 此 ， 能 采用 的 惟 
一 策略 就 是 原原本本 地 把 NP 中 每 一 个 问题 都 归 约 到 SAT 上 。 : 


定理 10.9 ( 库 克 定 理 ) SAT 是 NP 完全 的 。 

证 明 第 一 部 分 证 明 是 证 明 SAT 属 于 NP。 这 个 部 分 是 容易 的 : 

1. 利 用 NTM 的 非 确定 型 能 力 来 猜测 给 定 的 表达 式 E 的 赋值 。 如 果 编 码 过 的 E 长 度 为 x， 则 在 
多 市 NIM 上 OU 时 间 就 足够 了 。 注 意 ， 这 个 NTM 有 多 种 移动 选择 ， 而 且 在 猜测 过 程 结尾 ， 
可 到 达 多 至 2 种 不 同 的 ID ， 每 个 分 支 表示 对 不 同 赋值 的 猜测 。 


wa 


2. 在 赋值 T 下 对 E 求 值 。 如 果 E(7T) = 1， 就 接受 。 注 意 ， 这 一 部 分 是 确定 型 的 。NTM 的 其 他 分 支 
可 能 不 导致 接受 ， 这 个 事实 不 影响 输出 ， 因 为 只 要 找到 一 个 可 满足 赋值 ， 这 台 NTM 就 接受 。 
在 多 带 NTM 上 ， 在 O(n 时 间 里 就 能 轻松 完成 求 值 。 因 此 ， 多 带 NTM 对 SAT 的 整个 识别 过 程 
花费 O(m”) 时 间 。 转 换 成 单 带 NTM 可 能 让 时 间 平 方 ， 所 以 在 单 带 NTM 上 O(n4) 时 间 就 足够 了 。 
现在 ， 必 须 证 明 困 难 的 部 分 : 如 果 Z 是 NP 中 任意 语言 ， 则 有 从 L 到 SAT 的 多 项 式 时 间 归 约 。 
可 假定 存在 单 带 NTM M 和 多 项 式 p(n)， 使 得 M 在 长 度 为 n 的 输入 上 ， 沿 着 任何 分 支 都 花费 不 超过 
P() 步 。 而 且 ， 可 用 同样 的 方式 ， 对 NTM 证 明定 理 8.12 中 的 限制 条 件 ， 已 经 对 DTM 证 明 过 这 些 
条 件 。 因 此 ， 可 假设 M 从 不 会 写 下 空格 ， 也 从 不 会 把 带头 移 到 初始 带头 位 置 的 左 侧 。 
因此 ， 如 果 M 接 受 输入 w， 且 Iwl = n， 则 存在 M 的 移动 序列 ， 使 得 
1. % 是 M 在 输入 w 上 的 初始 ID，。 
2. oo 上 w 上 … 上 cx， 其 中 k<p(n)。 
3. ok 是 带 有 接受 状态 的 ID。 
4. 每 个 w 只 包含 非 空格 符 〈 除 非 w 以 状态 和 空格 结尾 ) ， 并 且 从 初始 带头 位 置 (最 左 输入 符 
号 ) 向 右 方 延伸 。 
这 里 的 策略 可 以 小 结 如 下 : 
a) 可 以 把 每 个 w; 写成 符号 序列 XioXi…Xi,po)。 其 中 一 个 符号 是 状态 ， 其 他 符号 都 是 带 符号 。 
依照 惯例 ， 假 定 状态 和 带 符号 是 不 相交 的 ， 所 以 能 区 分 出 哪个 Xj 是 状态 ， 因 此 能 区 分 出 
带头 位 置 。 注 意 ， 没 有 理由 去 表示 在 带 上 前 p(n) 个 符号 (这 些 符号 加 上 状态 就 组 成 长 度 为 
p(n) + 1 的 ID) 右边 的 符号 ， 因 为 如 果 保 证 让 M 在 p(n) 步 或 更 少 步 移动 之 后 停机 ， 则 这 些 
符号 不 可 能 影响 M 的 移动 。 
b) 为 了 用 布尔 变 元 来 描述 ID 序列 ， 创 造 变 元 yi 表示 命题 X; = 4。 在 这 里 ，i 和 j 都 是 0 到 p(n) 
光 围 内 的 整数 ，A 是 带 符号 或 状态 。 
c) 把 “了 DD 序列 表示 接受 输入 ”这 样 的 条 件 表示 成 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 当 且 
仅 当 MM 通过 至 多 p(n) 步 的 移动 序列 来 接受 w。 可 满足 赋值 将 是 关于 这 些 ID “说 真 话 ” 的 赋 
值 ， 即 yi 为 真 当 且 仅 当 Xy = 4A。 为 了 确保 从 L(M) 到 SAT 的 多 项 式 时 间 归 约 是 正确 的 ， 把 这 
个 表达 式 写成 是 说 计算 : 
i. 正确 开始 。 也 就 是 说 ， 初 始 ID 是 gow 后 面 跟 着 空格 。 
ii. 下 一 步 移动 是 正确 的 〈 即 这 步 移动 正确 地 遵循 TM 的 规则 ) 。 也 就 是 说 ， 每 个 后 继 ID 都 
是 从 前 面 的 了 D 根 据 M 合 法 移动 的 一 种 可 能 而 得 出 的 。 
iii. 正确 结束 。 也 就 是 说 ， 存 在 某 个 ID 是 接受 状态 。 
在 精确 地 构造 这 个 布尔 表达 式 之 前 ， 必 须 介 绍 几 个 细节 。 
“首先 ， 过 去 规定 当 结 尾 的 无 穷 长 空格 开始 时 ，ID 就 结束 。 但 是 ， 当 模拟 多 项 式 时 间 计 算 时 ， 
认为 所 有 了 都 有 同样 的 长 度 p(n) + 1， 这 样 更 加 方便 。 因 此 ， 在 卫 中 可 能 出 现 结尾 的 空格 。 
“其 次 ， 假 定 即 使 早 就 已 经 接受 了 ， 所 有 计算 也 都 持续 恰好 p(n) 步 (因此 有 p(n) + 1 个 ID)， 
这 样 更 加 方便 。 因 此 人 允许 带 有 接受 状态 的 ID 成 为 自身 的 后 继 。 也 就 是 说 ， 如 果 c 有 接受 状 
态 ， 则 允许 “移动 ”a 上 a。 因 此 ， 可 以 假定 ， 如 果 存 在 接受 计算 ， 则 ow) 将 有 接受 ID， 
而 这 正 是 对 于 “正确 结束 ”条 件 必须 核对 的 全 部 内 容 。 
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图 10-4 提 示 了 M 的 多 项 式 时 间 计算 看 起 来 像 什 么 。 行 对 应 于 ID 序列 ， 列 是 在 计算 中 能 使 用 的 
带 单元 。 注 意 ， 图 10-4 中 的 方 格 数 是 (p(n) + 1)2?。 而 且 ， 表 示 每 个 方 格 的 变 元 个 数 是 有 穷 的 ， 只 
依赖 于 M， 变 元 数 是 M 的 状态 数 和 带 符 号 数 之 和 。 





， 图 10-4 构造 出 单元 《或 ID 成 分 ) 的 阵列 
现在 给 出 从 M 和 w 构 造 布尔 表达 式 Emw 的 一 个 算法 。Ewm,w 的 总 体形 式 是 U 和 ASANA 人 FF， 其 中 5， 

N,F 是 说 MI 正确 开始 、 正 确 移 动 和 正确 结束 的 表达 式 。U 表 示 每 个 单元 格 有 惟一 的 符号 。 

惟一 

U 是 所 有 形 如 "0OwAyip) 的 项 的 合 取 ， 其 中 ab。 注 意 ， 这 些 项 的 数量 是 O(p?(n))。 

正确 开始 

Xo 一 定 是 M 的 初始 状态 qo， X01 到 Xo 一 定 是 w (其 中 n 是 w 的 长 度 ) 其 余 的 Xo; 一 定 是 空格 B。 
也 就 是 说 ， 如 果 w = aias…as， 则 : 

$= yoogo 人 yolal N yo2ay 八 … 人 yona Nyo,nt1,B MN Yo,nt+2,B A *** 人 yo,pm,B , 

的 确 ， 给 定 M 的 编码 并 且 给 定 w， 就 能 在 多 带 TM 的 第 二 条 带 上 在 OD(n)) 时 间 里 写 出 5。 

正确 结束 

因为 假设 接受 ID 永远 重复 下 去 ， 所 以 M 接 受 就 等 于 在 am 中 找到 接受 状态 。 记 住 ， 假定 M 是 
如 果 接 受 就 在 p(n) 步 之 内 接受 的 NTM。 因 此 ，F 是 表达 式 Fj 的 逻辑 或 ，j = 0, 1,…, p(n)，Fj 说 明 
Xpn),} 是 接受 状态 。 也 就 是 说 ， 是 Yon) V ypo),i, a We V Ypin), ;, QK9》 其 中 ar Ad2,"**, Ak 是 M 的 全 部 接 
受 状态 。 于 是 ， 

F=FoVEFV VE 

每 个 Fj 使 用 常数 个 符号 ， 这 个 数目 依赖 于 M， 但 不 依赖 于 M 的 输入 w 的 长 度 n。 因 此 ，F 长 度 

为 0(n)。 更 重要 的 是 ， 给 定 M 的 编码 和 输入 w， 写 出 F 的 时 间 是 n 的 多 项 式 ， 实际 上 ， 能 在 多 带 
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TM 上 在 O((n)) 时 间 里 写 出 F。 
下 一 步 移动 是 正确 的 


保证 M 的 移动 是 正确 的 ， 这 是 目前 为 止 最 复杂 的 部 分 。 表 达 式 N 将 是 表达 式 N; 的 逻辑 与 ，i 
= 0, 1,…, p(n) 一 1， 每 个 NN; 将 设计 成 保证 ID ai;1 是 M 人 允许 跟 在 a 后 面 的 信之 一 。 为 了 开始 解释 如 
何 写 出 N:， 观 察 一 下 图 10-4 中 的 符号 X41,j。 总 是 可 以 根据 下 列 内 容 来 确定 入 1，: 
1 .在 Xii 上 面 的 己 个 符 时 天 ji,y41, | 以 及 
2. NTM M 具 体 的 移动 选择 (如 果 这 些 符号 之 一 是 a 的 状态 )。 
我 们 将 把 Ni 写成 表达 式 Ay V Bj 的 合 取 (人 )， 其 中 j=0, 1,…, p(n)。 
。 表达 式 Ay 说 : 
a) 0; 的 状态 在 位 置 i ( 即 X; 是 状态 )， 并 且 
b) 存在 M 的 移动 选择 (其 中 Xj 是 状态 ，Xj; 1 是 扫描 的 符号 )， 使 得 这 种 移动 把 符号 序列 不 六 
XiXij+1 变 换 成 X41,j-1Xit1,jXi+1j+1。 注 意 ， 如 果 是 接受 状态 ， 则 存在 根本 不 移动 的 “ 选 
择 "， 所 以 所 有 后 继 的 ID 都 等 于 第 一 次 导致 接受 的 那个 ID。 
* 表达 式 B;y 说 : 
a) 0 的 状态 不 在 位 置 j( 即 名 不 是 状态 )， 并 且 
b) 如 霖 a 的 状态 不 是 邻近 位 置 i( 即 Xj- 1 和 Xi, j+1 都 不 在 状态 ) 时 ， 则 X41 = 和。 
注意 ， 当 状态 邻近 位 置 j 时 ，A4i,;_ ! 或 4; ;4 1 都 关系 到 位 置 的 正确 性 。 
Bi 写 起 来 更 容易 。 设 qi, q;, …, qn 是 M 的 状态 ， 并 设 Z1, Z,,…, 2Z, 是 带 符号 。 于 是 ， 
By= Oa Vy,g VV yi,0,)V 
Vj,a Vva V V Yi,jt1,g,) V 
(ijz VyYij zs VV yijz) NM 
(ij,z1 AVir1,32)V Vij, zy Ny 2) Ve V (yi z, Nyit+1,3,2,))) 
Bij 有 的 头 两 行 保证 当 a; 的 状态 与 位 置 / 相 邻 时 ， Bi 是 真 ; Bj 的 头 三 行 一 起 保证 的 状态 在 位 置 j 时 ， 
Bi 为 假 ， 而 且 N; 的 真 仅 依赖 于 4; 是 真 ， 也 就 是 移动 是 合法 的 。 当 状 态 离 位 置 至 少 两 个 位 置 距离 
时 ， 后 两 行 保证 符号 不 变 。 最 后 一 行 说 XX = XX ;1,，， 这 是 通过 枚 举 所 有 可 能 的 带 符号 ZzZ， 并 且说 
要 么 都 是 Z1， 要 么 都 是 24， 等 等 。 
有 两 个 重要 的 特殊 情形 : j = 0 或 = p(n)。 在 一 种 情形 里 没有 变 元 y; ;1 x， 在 另 一 种 情形 里 没 
有 变 元 Xi+ xs 但 已 知 带头 从 不 移 到 初始 位 置 的 左边 ， 且 已 知 带 头 没有 时 间 移 到 初始 位 置 右边 超 
过 p(n) 个 单元 。 因 此 ， 可 从 Bn 和 Bipo) 中 删除 一 些 项 ， 把 这 个 化 简 留 给 读者 来 做 。 
现在 ;考虑 表达 式 Ay。 这 些 表达 式 反 映 出 在 图 10-4 的 阵列 中 ，2 x 3 符号 矩形 Xi j1, Xiy, Xi j + 1， 
it 六 1 Xi+1,j, Xi+1,j+1 中 的 所 有 可 能 的 关系 。 如 果 ， 
1. 名 是 状态 ， 但 Xj-1 和 Xi,j41 是 带 符号 。 
2. 存在 M 的 一 种 移动 ， 这 个 移动 解释 Xj_1XyXij; 1 如 何 变 成 
Ai+ ,1Kit 1 Ri ,41 


Ta 


因此 只 有 有 穷 多 种 从 符号 到 这 六 个 变 元 的 赋值 是 有 效 的 。 设 hi 是 一 些 项 的 逻辑 或 ， 每 项 对 应 着 
构成 有 效 赋值 的 一 组 六 个 变 元 。 

例如 ， 假 设 M 的 一 种 移动 来 自 于 6(q; A) 包含 (p; C,; DD 这 个 事实 。 设 D 是 M 的 某 个 带 符 号 。 于 是 
一 种 有 效 赋 值 是 Xi j_1XiyXij+1 = D9A 和 Xi41,j-1Xi+1,jXi+1,j+1=pDC。 注 意 ， 这 个 赋值 如 何 反 映 出 由 
M 如 此 移动 所 引起 的 D 中 的 变化 。 反 映 这 种 可 能 性 的 项 是 : 

Vij DNVij,a AVijr1,ANVWirijlp AWrijD AVirijtic 
如 采 与 上 面 不 同 ，6(q, 4) 包 含 (p,C,R)【( 即 移动 是 同样 的 ， 但 带头 向 右 移动 )， 于 是 相应 的 有 效 赋 
值 是 Xij-1XiyXij+1 = D494A 和 Xiti1,j-iXit1,jXit1,j+1= DCP。 则 对 应 的 有 效 赋值 是 : 
Pi-1,DA Vj,a A Vjtl, AANVYit DAYitl, jcA Vitlitl,p 

乌 是 所 有 有 效 项 的 逻辑 或 。 在 j= 0 和 1 = p(n) 的 特殊 情形 里 ， 必 须 像 对 Bi 那样 进行 一 些 修改 ， 

以 反映 出 不 存在 变 元 yjz， 其 中 j < 0 或 j> p(n)。 最 后 ， | 
N=(AnVBio)A(AnVBa)N\ A(AipnV Bi pn ) 
于 是 
N= NoANiA*… ANpon 1 


虽然 如 采 MM 有 许多 状态 并 且 (或 者 ) 有 许多 带 符 号 ， 则 Ajy 和 Bi 可 以 非常 大 ， 但 是 仅 就 输入 w 
的 长 度 而 言 ，Ay 和 Bi 的 规模 是 常数 ， 也 就 是 说 ，Ay 和 Bi 的 规模 与 w 的 长 度 n 无 关 。 因 此 NN; 的 长 度 
是 O(p(n))，N 的 长 度 是 O(p*(n))。 更 重要 的 是 ， 可 以 在 与 N 的 长 度 成 比 的 时 间 里 ， 在 多 带 TM 的 一 
条 带 上 写 下 V， 这 个 时 间 量 是 w 的 长 度 x 的 多 项 式 。 


库 克 定理 证 明 的 总 结 


虽然 已 经 把 表达 式 
Eunw=UANASANAP 


的 构造 描述 成 了 M 和 w 的 函数 ， 但 是 事实 上 ， 只 有 “正确 开始 ”部 分 5 依赖 于 ， 而 且 5 是 以 一 种 
简单 的 方式 来 依赖 的 (w 是 在 初始 ID 的 带 上 )。 其 他 部 分 N 和 F 只 依赖 于 M 和 n,n 是 w 的 长 度 。 
因此 ， 对 于 在 某 个 多 项 式 时 间 p(n) 里 运行 的 任何 NTM M 来 说 ， 都 能 设计 一 个 算法 ， 这 个 算 
法 获得 长 度 为 的 输入 w， 产 生出 Ew,,。 这 个 算法 在 多 带 确定 型 TM 上 的 运行 时 间 是 O(p?(n))， 而 
这 个 多 带 TM 可 以 转化 成 在 O(p*(n)) 时 间 里 运行 的 单 带 TM。 这 个 算法 的 输出 是 布尔 表达 式 Ew，， 
Em.w 是 可 满足 的 当 且 仅 当 M 在 O(p(n)) 步 移动 之 内 接受 w。 加 


为 了 强调 库 克 定理 10.9 的 重要 性 ， 我 们 来 看 看 定理 10.5 如 何 对 库 克 定理 起 作用 。 假 如 SAT 有 
确定 型 TM， 它 在 多 项 式 时 间 (比如 说 gq(n) 时 间 ) 里 识别 SAT 的 实例 。 于 是 对 于 在 多 项 式 时 间 p(n) 
里 接受 的 NTM M 所 接受 的 每 个 语言 都 将 被 DTM 在 确定 型 多 项 式 时 间 里 所 接受 ， 图 10-5 提 示 这 个 
DTM 是 如 何 操 作 的 。M 的 输入 w 转 化 成 布尔 表达 式 Ew,，,。 把 这 个 表达 式 输入 到 SAT 的 检验 程序 ， 
无 论 这 个 检验 程序 关于 Em,w 怎样 回答 ， 图 10-5 的 算法 关于 w 都 会 照样 回答 。 
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图 10-5 如 果 SAT 属 于 P， 则 以 这 种 方式 设计 的 DTM 就 能 证 明 NP 中 每 个 语言 都 属于 2P 


10.2.4 习题 


习题 10.2.1 下 列 布尔 表达 式 有 多 少 种 可 满足 赋值 ? 哪些 布尔 表达 式 属于 SAT? 
* a) xXAQV—) ANZV yy), 

b) (xVy)ACxV ZV (hz A my)), 

:习题 10.2.2 假设 G 是 四 个 顶点 1,2, 3, 4 的 图 。 设 对 于 1<i<j<4, 己 是 命题 变 元 ， 把 x 解释 
成 说 “在 顶点 i 和 jj 之 间 存 在 一 条 边 ”。 在 这 四 个 顶点 上 的 任何 图 都 能 表示 成 赋值 。 例 如 ， 图 10-1 
中 的 图 表示 成 : 让 xi 为 假 而 其 他 三 个 变 元 为 真 。 能 把 只 涉及 到 边 的 存在 或 不 存在 的 任何 性 质 都 
表示 成 布尔 表达 式 ， 这 个 布尔 表达 式 为 真 当 且 仅 当 对 变 元 的 赋值 描述 了 具有 这 个 性 质 的 图 。 写 
出 下 面 这 些 性 质 的 表达 式 : 

* a) C 有 哈密 顿 回路 。 
b) G 是 连通 的 。 
c) G 包 含 规模 为 3 的 团 ， 也 就 是 说 ， 有 三 个 顶点 ， i 一 条 边 ( 即 图 
中 的 三 角形 )。 
d) G 至 少 包 含 一 个 孤立 点 ， 也 就 是 说 ， 有 一 个 没有 边 的 顶点 。 


10.3 约束 可 满足 性 问题 


现在 计划 证 明 范围 广泛 形式 多 样 的 间 题 (比如 在 10.1.4 节 提 到 过 的 TSP 问 题 ) 是 NP 完全 的 。 
在 原则 上 ， 通 过 找 出 从 SAT 问 题 到 所 关注 的 每 个 问题 的 多 项 式 时 间 归 约 来 完成 这 个 证 明 。 但 是 ， 
有 一 个 重要 的 中 间 问 题 ， 称 为 “3SAT”， 这 个 问题 比 SAT 更 容易 归 约 到 典型 问题 上 。3SAT 仍 然 
在 关 于 布尔 表达 式 可 满足 性 的 问题 ， 但 这 些 表达 式 具有 非常 规则 的 形式 ， 这些 表达 式 是 “ 子 句 ” 
的 逻辑 与 《AND)， 每 个 子 句 恰好 是 三 个 变 元 或 否定 变 元 的 逻辑 或 (OR )。 

本 市 介绍 关于 布尔 表达 式 的 一 些 重要 术语 。 然 后 把 任意 表达 式 的 可 满足 性 归 约 到 具有 3SAT 
问题 范式 的 表达 式 的 可 满足 性 。 有 趣 的 是 ， 注 意 : 每 一 个 布尔 表达 式 E 都 具有 3SAT 问 题 范 式 形 
式 的 守 价 表达 式 F， 但 F 的 规模 可 能 是 E 的 规模 的 指数 。 因 此 ， 从 SAT 到 3SAT 的 多 项 式 时 间 归 约 ， 
必须 比 人 简单 的 布尔 代数 处 理 更 加 精致 。 需 要 把 SAT 中 每 个 表达 式 E 转 化 成 3SAT 范 式 形式 的 另 一 个 
表达 式 F。 但 F 不 一 定 等 价 于 E。 只 能 保证 : F 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 ， 


10.3.1 布尔 表达 式 的 范式 
下 面 是 三 个 重要 的 定义 : 


WO 


。 文 字 就 是 变 元 或 否定 变 元 。 例 如 ，x 和 -y。 为 了 节省 空间 ， 通 常用 上 划 线 》 来 代替 -y 这 样 

的 文字 。 

。 子 名 就 是 一 个 或 多 个 文字 的 逻辑 或 (OR)。 例 如 ，x，xVy 和 xzV y Vz。 

。 如 果 布 尔 表达 式 是 子 句 的 逻辑 与 AND)， 就 说 这 个 表达 式 是 合 取 范式 9。 (或 CNF)。 
为 了 进一步 压缩 写 出 的 表达 式 ， 将 采用 另 一 种 记号 ， 把 V 当 作 加 法 使 用 + 运算 符 ， 把 入 当 作 乘 
法 。 对 于 乘法 ， 如 同 在 正则 表达 式 中 对 于 连接 那样 ， 通 常 使 用 并 置 ， 即 没有 运算 符 。 于 是 也 自 
然 把 子 句 称 为 “文字 之 和 ”并 把 CNF 表 达 式 称 为 “ 子 句 之 积 ”。 


例 10.10 ”采用 压缩 记号 ， 表达 式 (xV -y) (~xVz) 将 写成 (x + y)( + z)。 由 于 该 表达 式 是 
子 名 (x+ >) 和 (x + 习 的 逻辑 与 ( 积 )， 所 以 该 表示 式 是 CNE。 

表达 式 (xX+yz)(x+y+z)(y+7z) 不 是 CNF。 这 个 表达 式 是 三 个 子 表达 式 (xX+yz)，(X+y+2) 
和 (y+2) 的 逻辑 与 。 最 后 两 个 子 表达 式 是 子 句 ， 但 第 一 个 子 表达 式 不 是 子 句 ， 这 个 子 表达 式 是 
一 个 文字 与 两 个 文字 之 积 的 和 。 

表达 式 xyz 是 CNF。 回 忆 一 下 ， 子 句 可 能 只 有 一 个 文字 。 因 此 ， 这 个 表达 式 是 三 个 子 句 (x)， 
0); (2) 之 积 。 口 


如 果 表 达 式 是 这 样 一 些 子 句 之 积 ， 每 个 子 句 是 恰好 k 个 不 同文 字 之 和 ， 则 说 这 个 表达 式 是 
合 取 范 式 (Kk-CNF)。 例 如 ，(x+)(y+z)(z+x) 是 2-CNF， 因 为 每 个 子 句 恰好 有 两 个 文字 。 

所 有 这 些 在 布尔 表达 式 上 的 限制 ， 都 分 别 导致 关于 带 有 这 些 限制 的 表达 式 的 可 满足 性 问题 。 
因此 ， 我 们 将 要 讨论 下 列 问题 : 

。CSAT 是 这 样 的 问题 : 给 定 具 有 CNE 形 式 的 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 吗 ? 

。KSAT 是 这 样 的 问题 : 给 定 具有 有 -CNF 形 式 的 布尔 表达 式 ， 这 个 表达 式 是 可 满足 的 吗 ? 

将 要 看 到 ，CSAT、3SAT 以 及 所 有 k 大 于 3 的 kSAT 都 是 NP 完全 的 。 但 是 ，1SAT 和 2SAT 有 线性 
时 间 算 法 。 


处 理 坏 输入 


每 个 已 经 讨论 过 的 问题 (SAT，CSAT，3SAT， 等 等 )， 都 是 在 8 个 符号 的 固定 字母 表 上 
的 语言 ， 这 些 语言 的 串 有 时 候 可 以 解释 成 布尔 表达 式 。 不 解释 为 布尔 表达 式 的 串 都 不 可 能 


属于 SAI 语 言 。 同 样 ， 当 考虑 限制 形式 的 表达 式 时 ， 那 些 虽 然 是 合式 布尔 表达 式 但 不 是 限 
制 形式 表达 式 的 串 ， 都 不 属于 这 些 语言 。 因 此 ， 举 例 来 说 ， 如 果 输 入 的 布尔 表达 式 是 可 满 
足 的 但 不 是 CNF 形 式 的 ， 则 判定 CSAT9 题 的 算法 将 回答 “ 否 ”。 





10.3.2 把 表达 式 转 化 成 CNF 


如 采 在 变 元 的 任何 赋值 上 两 个 表达 式 都 有 同样 的 结果 ， 则 说 这 两 个 布尔 表达 式 是 等 价 的 。 
如 本 两 个 表达 去 是 等 价 的 ， 则 肯定 要 么 都 是 可 满足 的 ， 要 么 都 不 是 可 满足 的 。 因 此 ， 把 任意 表 
达 式 转化 为 等 价 的 CNF 表 达 式 是 开发 从 SAT 到 CSAT 的 多 项 式 时 间 归 约 的 有 希望 的 方法 。 这 个 归 


日 “ 合 取 ”是 逻辑 与 (AND, 人 ) 的 奇特 说 法 。 


人 own 


约 可 能 证 明 CSAT 是 NP 完全 的 。 

但 是 ， 事情 并 非 如 此 简单 。 虽 然 可 以 把 任何 表达 式 转化 为 CNF， 但 是 这 个 转化 可 能 花费 超 
过 多 项 式 时 间 。 具 体 地 说 ， 这 个 转化 可 能 让 表达 式 长 度 有 指数 增长 ， 因 此 肯定 要 花费 指数 时 间 
来 产生 输出 。 

六 运 的 是 ， 把 任意 布尔 表达 式 转化 为 具有 CNF 形 式 的 表达 式 ， 对 于 把 SAT 归 约 到 CSAT， 
因此 证 明 CSAT 是 NP 完全 的 来 说 ， 只 是 可 能 的 方式 之 一 。 不 得 不 做 的 全 部 事情 是 : 输入 SAT 实 
例 E£， 把 E 转 化 为 CSAT 实 例 F， 使 得 fF 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 。 没 有 必要 让 E 和 F 是 等 
价 的 。 其 至 没有 必要 让 E 和 Ff 具有 同样 的 变 元 集合 ， 事 实 上 ， 在 一 般 情况 下 ，F 的 变 元 是 E 的 变 
元 的 超 集 。 

从 SAT 到 CSAT 的 归 约 将 包括 两 个 部 分 。 第 一 步 ， 把 所 有 的 =- 沿 着 表达 式 树 往 下 推 ， 使 得 否 
定 只 出 现在 变 元 前 面 ; 即 布尔 表达 式 变 成 文字 的 逻辑 与 和 逻辑 或 。 这 个 变换 产生 等 价 的 表达 式 ， 
花费 的 时 间 至 多 是 表达 式 规模 的 平方 。 在 常规 计算 机 上 ， 如 果 仔 细 地 设计 数据 结构 ， 这 个 变换 
只 人 花费 线性 时 间 。 

第 一 步 是 写 出 一 个 表达 式 ， 这 个 表达 式 作为 一 些 子 句 之 积 ， 是 文字 的 逻辑 或 的 逻辑 与 ， 即 
把 这 个 表达 式 写 成 CNF 形 式 。 通 过 引入 一 些 新 的 变 元 ， 可 以 在 给 定 表达 式 的 规模 的 多 项 式 时 间 
里 完成 这 个 变换 。 在 一 般 情况 下 ， 新 的 表达 式 F 将 不 等 价 于 旧 的 表达 式 E。 但 是 ，F 是 可 满足 的 
当 且 仅 当 E 是 可 满足 的 。 更 具体 地 说 ， 如 果 7T 是 使 E 为 真 的 赋值 ， 则 存在 T 的 扩展 (如 5S) 使 F 为 
真 ， 如果 3 和 7 把 同样 的 值 赋 给 每 一 个 7 赋 过 值 的 变 元 ， 则 说 5 是 7 的 扩展 ， 但 $ 还 可 以 给 7 没有 涉及 
到 的 变 元 赋值 。 

第 一 步 是 把 - 推 到 人 和 V 之 后 。 所 需要 的 规则 是 : 

《EA 了 地 AE)V -AF)。 这 条 规则 ( 德 . 摩根 律 中 的 一 条 ) 允许 把 - 推 到 人 之 后 。 注 意 ， 
副作用 是 把 和 人 变 成 V 。 

(EV 外 地 (和 -AF)。 这 条 规则 ( 德 . 摩根 律 中 的 另 一 条 ) 把 - 推 到 V 之后。 副作用 是 
VY 旋 成 信 、 

“(MM(E)) >。 这 条 双重 否定 律 消除 作用 在 同一 个 表达 式 上 的 一 对 一 。 


jw 


上 


CU 


例 10.11 ”考虑 表达 式 E =-((-(x+y))(X+ 少 ) 。 注 意 ， 使 用 了 两 种 记号 的 混合 ， 当 被 否定 的 

表达 式 不 是 单个 变 元 时 ， 就 明确 地 使 用 -运算 。 图 10-6 说 明 一 nl 

些 步 又， 在 这 些 步 又 中 把 表达 式 有 让 所 有 -~ 往 后 推 ， 直 到 这 些 ” 一 J7- jG 

成 为 文字 的 部分。 et 
最 后 的 表达 式 等 价 于 原来 的 表达 式 并 且 是 文字 的 “与 或 ” z+y+(5 十 雪 

表达 式 。 这 个 表达 式 可 进一步 化 简 为 表达 式 * + y， 但 是 对 于 “++ 一 全 

断言 能 把 每 个 表达 式 改 写成 -只 出 现在 文字 中 来 说 ， 这 个 化 简 ” 图 10-6 把 - 沿 表达 式 树 往 后 推 ， 使 

并 不 是 未 质 上 的 : 得 -只 出 现在 文字 中 






定理 10.12 ”每 一 个 布尔 表达 式 E 都 等 价 于 一 个 表达 式 F， 在 F 中 否定 只 出 现在 文字 中 ， 即 直 
接 作用 在 变 元 上 。 而 且 ，F 的 长 度 是 E 的 符号 数 的 线性 函数 ， 并 且 可 以 在 多 项 式 时 间 里 从 E 构 造 
HR 
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证 明 证 明 是 对 E 中 的 运算 (人 ，V ，”) 个 数 进行 归纳 。 证 明 存 在 一 个 等 价 表达 式 F, 其 中 
-只 出 现在 文字 中 。 另 外 ， 如 果 E 有 n>1 个 运算 符 ， 则 F 有 不 超过 2n 一 1 个 运算 符 。 
F 没 有 必要 对 每 个 运算 符 使 用 超过 一 对 括号 ， 表达 式 中 的 变 元 个 数 不 会 超过 运算 符 数 加 一 ， 
由 此 得 出 F 的 长 度 是 与 E 的 长 度 线性 地 成 比例 的 。 更 重要 的 是 ， 将 要 看 到 F 的 构造 非常 简单 ， 所 
以 构造 F 所 花费 的 时 间 与 F 的 长 度 成 比例 ， 因 此 与 E 的 长 度 成 比例 。 
基础 : 如果 E 只 有 一 个 运算 符 ， 则 E 一 定 具有 形式 -x，x Vy 或 + 和 人 y， 其 中 x 和 y 是 变 元 。 在 每 
种 情形 下 E 都 已 经 具备 所 需要 的 形式 ， 所 以 让 F = E 就 行 了 。 注 意 ，E 和 FF 各自 具有 一 个 运算 符 ， 
所 以 “F 至 多 具有 两 倍 于 E 的 运算 符 数 ”的 关系 成 立 。 
归纳 ; 假设 命题 对 于 运算 符 比 E 少 的 所 有 表达 式 都 为 真 。 如 果 E 的 最 高 层 运算 符 不 是 -， 则 E 
一 定 具有 形式 EiV E; 或 E1 人 Es,。 在 任何 一 种 情形 下 ， 归 纳 假设 都 可 以 应 用 到 EB 和 请 上 ， 归纳 假 设 
说 : 分 别 存在 着 等 价 表达 式 F1 和 F;， 其 中 所 有 的 -都 仅仅 出 现在 文字 中 。 于 是 F = FiV 或 F = 
(FD)A(F) 就 是 E 的 适当 的 等 价 式 。 设 E1 和 Es 分 别 有 a 和 b 个 运算 符 。 于 是 BE 有 a + b+ 1 个 运算 符 。 
根据 归纳 假设 ，Fi 和 ;分别 至 多 有 2a 一 1 和 2b 一 1 个 运算 。 因 此 ，F 至 多 有 2a + 2b 一 1 个 运算 符 ， 
这 个 数字 不 超过 2(a + b+ 1) 一 1， 或 E 的 两 倍 运 算 符 数 减 一 。 
现在 考虑 E 形 如 -El 的 情形 。 根 据 E1 的 最 高 层 运算 符 是 什么 ， 有 三 种 情形 。 注意， 也 必须 有 
一 个 运算 符 ， 否 则 E 其 实 就 是 基础 情形 。 
1. Ei = "BE;, 于 是 根据 双重 否定 律 ， Ei = (~E)) 等 价 于 EB;。 Ez 比 E 运 算 符 少 ， 所 以 归纳 假设 
起 作用 。 可 以 找 出 与 E; 等 价 的 r， 其 中 仅 有 的 -都 在 文字 里 。F 也 等 价 于 E。 因 为 F 的 运算 
符 数 至 多 是 E 的 两 倍 运算 符 数 减 一 ， 所 以 F 的 运算 符 数 肯定 不 会 超过 E 的 两 倍 运 算 符 数 
十 

2. 1 = E2V E3。 根 据 德 * 摩根 律 ，E = -(E2V Es) 等 价 于 (=-(E2)) 人 (=(E;))。 nm(CE2) 和 ”CE3) 都 比 忆 
运算 符 少 ， 所 以 根据 归纳 假设 ，-(E) 和 -(E;) 都 有 等 价 的 和 3， 其 中 只 在 文字 里 才 有 -。 
于 是 F = (Fz) 人 (3) 是 E 的 等 价 式 。 还 可 以 断言 F 中 运算 符 个 数 不 会 太 多 。 设 妃 和 EE 分 别 
有 a 个 和 b 个 运算 符 。 于 是 E 有 a + b+ 2 个 运算 符 。-(E) 和 -(E;) 分 别 有 a + 1 个 和 + 1 个 运算 
和 从， 而 三 和 3 是 从 这 些 表达 式 构 造 出 来 的 ， 所 以 根据 归纳 假设 可 以 知道 ， 和 情 分 别 至 多 
有 2(a + 1) 一 1 个 和 2(b + 1) 一 1 个 运算 符 。 因 此 ，F 至 多 有 2a + 2b+ 3 个 运算 符 。 这 个 数字 是 
E 的 两 们 运算 符 数 减 一 。 

3. 1= Eo 八 E3。 利 用 第 二 条 德 . 摩根 律 ， 这 个 论证 本 质 上 与 (2) 相 同 。 口 


算法 描述 


虽然 形式 化 地 说 ， 一 个 归 约 的 运行 时 间 就 是 这 个 归 约 在 单 带 图 灵机 上 执行 所 花费 的 时 
间 ， 但 是 单 带 图 灵机 的 算法 却 毫 无 必要 地 复杂 。 我 们 已 经 知道 ， 在 某 个 多 项 式 时 间 里 ， 在 


常规 计算 机 、 多 带 图 灵机 和 单 带 图 灵机 上 ， 所 能 解答 的 问题 的 集合 都 是 相同 的 ， 只 不 过 多 
项 式 的 次 数 可 能 不 同 而 已 。 因 此 ， 当 描述 某 些 相当 复杂 的 算法 ， 需 要 这 些 算法 来 把 一 个 NP 
完全 问题 归 约 到 另 一 个 NP 完全 问题 时 ， 就 约定 : 用 算法 在 常规 计算 机 上 的 有 效 实现 来 度量 
时 间 。 这 种 理解 将 可 以 避免 带 操作 的 细节 ， 并 且 允 许 强调 重要 的 算法 思想 
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10.3.3 CSAT 的 NP 完全 性 


现在 ， 需 要 把 一 个 表达 式 E 转 化 成 CNF，E 是 文字 的 逻辑 与 和 多 辑 或 。 曾 经 指出 过 ， 为 了 在 
多 项 式 时 间 里 从 E 产 生 一 个 表达 式 F (fF 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 ) 就 必须 放弃 保持 等 价 
性 的 变换 ， 并 且 给 F 引 入 一 些 不 在 E 中 出 现 的 新 变 元 。 将 要 在 CSAT 是 NP 完全 的 证 明 中 介绍 这 个 
“技巧 ， 然 后 举 出 这 个 技巧 的 一 个 例子 ， 让 这 个 构造 更 清楚 。 


定理 10.13 “CSAI 是 NP 完 全 的 。 
证 明 证明 如 何在 多 项 式 时 间 里 把 SAT 归 约 到 CSAT。 首 先 ， 利 用 定理 10.12 的 方法 ， 把 一 个 
给 定 的 SAT 实 例 转化 成 一 个 表达 式 E，E 只 在 文字 里 才 有 --。 然 后 ， 证 明 如 何在 多 项 式 时 间 里 把 E 
转化 成 一 个 CNF 表 达 式 FF， 并 证 明 F 是 可 满足 的 当 且 仅 当 E 是 可 满足 的 。 通 过 对 E 的 长 度 进行 归纳 
来 构造 F。 Ff 具有 的 特殊 性 质 比 所 需要 的 还 要 多 一 些 。 准 确 地 说 ， 通 过 对 E 的 符号 出 现 次 数 (“长 
度 ) 进行 归纳 ， 可 以 证 明 : 
* 存在 常数 c<， 使 得 如 有 果 E 是 一 个 长 度 为 n 的 布尔 表达 式 ， 其 中 =- 只 出 现在 文字 里 ， 则 存在 一 个 
表达 式 F， 使 得 : 
a) FF 具有 CNF 形 式 ，F 至 多 由 n 个 子 句 组 成 。 
b) 可 以 在 至 多 clEP 时 间 里 从 E 构 造 出 F。 
c) E 的 趴 值 赋值 7 使 E 为 真 ， 当 且 仅 当 存 在 7 的 扩展 S 使 F 为 真 。 
基础 : 如 有 果 E 包 含 一 个 或 两 个 符号 ， 则 E 是 文字 。 文 字 是 子 句 ， 所 以 E 已 经 具有 CNF 形 式 .。 
归纳 : 假设 每 一 个 比 E 短 的 表达 式 都 能 转化 为 子 句 之 积 ， 并 且 这 种 转换 在 长 度 为 n 的 表达 式 
上 至 多 花费 cm? 时 间 。 根 据 E 的 最 高 层 运算 ， 存 在 两 种 情形 。 


情形 1: E = El 信 E;。 根据 归 纳 假设 , 分 别 存 在 从 El 和 Es 导出 的 具有 CNF 形 式 的 表达 式 所 和 FF，。 
El 的 所 有 可 满足 赋值 ， 并 且 只 有 可 满足 赋值 ， 才 可 以 扩展 成 的 可 满足 赋值 ， 对 于 瓦 和 Fs 也 是 同 
样 的 。 不 失 一 般 性 ， 可 以 假设 : 除了 在 E 中 出 现 的 那些 变 元 之 外 ，Fi 和 FF 的 变 元 是 不 相交 的 ， 即 
如 条 不 得 不 给 己 和 (或 ) Ff2 引 入 变 元 ， 那 么 就 使 用 不 同 的 变 元 。 

设 F = Fl1 人 人 Fi。 显然 如 果 下 和 F2 是 CNF， 则 Fi 信也 是 CNF。 必 须 证明 : E 的 可 满足 赋值 T 可 
以 扩展 为 F 的 可 满足 赋值 ， 当 且 仅 当 7 满 足 E。 

( 当 ) 假设 7 满足 E。 设 是 7 的 限制 ， 使 得 只 作用 于 在 El 中 出 现 的 变 元 上 ， 设 二 是 对 于 EE 的 
同样 限制 。 于 是 根据 归纳 假设 ， 可 以 把 Ti 和 7T2 分 别 扩展 成 满足 Fi 和 FF 的 S!: 和 S52。 设 5 与 $, 和 5; 在 已 
经 定义 的 每 个 变 元 上 都 是 一 致 的 。 注 意 ，Fi 和 F 仅 有 的 公共 变 元 都 是 E 的 变 元 ， 并 且 S1 和 S52 必须 
在 共同 定义 的 变 元 上 是 一 致 的 ， 所 以 总 是 可 以 构造 出 $。 但 是 5 就 是 满足 F 的 7 的 扩展 。 

( 仅 当 ) 反之 , 假设 T 有 满足 F 的 扩展 S$。 设 TI (或 7,) 是 把 7 限制 到 EB1 (或 6) 的 变 元 上 。 设 
把 S 限 制 到 F， (或 F2) 的 变 元 上 是 $1 (或 5,)。 于 是 $1 是 Ti 的 扩展 ，5; 是 7; 的 扩展 。 因 为 F 是 Fl 和 FF， 
的 逻辑 与 ， 所 以 一 定 有 Si 满足 Fi 上 且 Ss 满足 F,。 根 据 归纳 假设 ，7T， (或 7) 一 定 满足 E (或 E)。 因 
此 ，7T 诺 足 E。 


情形 2: E = EV Ez。 与 情形 1 一 样 ， 利 用 归纳 假设 来 断言 : 存在 表达 式 Fi 和 F,， 具 有 以 下 性 
质 : 


A 


1.E1 (或 E;) 的 真 值 赋值 满足 E， (或 52)， 当 且 仅 当 这 个 赋值 可 以 扩展 成 fF (或 Ff;) 的 可 满 
足 赋值 。 

2. 除 了 在 E 中 出 现 的 那些 变 元 之 外 ，Fi 和 的 变 元 是 不 相交 的 。 

3. 所 和 F2 都 具有 CNF 形 式 .。 

不 能 简单 地 用 和 ;的 逻辑 或 来 构造 所 需要 的 F， 原 因 在 于 ， 这 样 得 出 的 表达 式 可 能 不 具有 
CNF 形 式 。 但 是 ， 利 用 只 希望 保持 可 满足 性 而 不 是 等 价 性 这 一 事实 的 一 种 更 复杂 的 构造 将 会 行 
得 通 。 假 设 

81=8LIAS2 AN 人 gr 
且 本 = 太 人 有 人 … 和 记 ， 其 中 g 和 j 都 是 子 句 。 引 入 新 变 元 7y， 并 设 
F=(Yy+8) A (+8 DJ 和 人 (OH8)A G+h) NyFR) A A (y+h,) 
必须 证 明 : E 的 赋值 7 满足 E， 当 且 仅 当 7 能 扩展 成 满足 F 的 赋值 5。 

( 仅 当 ) 假设 7 满足 E。 像 在 情形 1 中 那样 ， 设 (或 攻 ) 是 把 T 限 制 到 E， (或 E) 的 变 元 上 ， 
因为 E = E1V E,， 所 以 要 么 T 满 足 E!， 要 么 T 满 足 E。 假设 7 满足 E1。 于 是 T，( 即 把 7 限制 到 El 的 恋 
元 上 ) 就 能 扩展 成 满足 所 的 $1,。 构 造 7 的 扩展 S 如 下 ; 5 将 满足 上 面 定 义 的 表达 式 F， 

1. 对 于 所 中 所 有 变 元 x，S(x) = Si(x)。 

2.SQO) =0。 这 个 选择 让 从 导出 的 所 有 子 句 都 为 真 。 

3. 对 于 所 有 在 中 但 不 在 Fi 中 的 变 元 x， 如 果 T(x) 有 定义 ， 则 选项 S(x) = T(x)， 和 否则 Sx) 可 以 

任意 为 0 或 1。 
于 是 由 于 规则 1，S 让 从 g 导 出 的 所 有 子 句 都 为 真 。 根 据 规则 2 (对 y 的 赋值 )，5 让 从 h 导 出 的 所 有 
子 句 都 为 真 。 因 此 ，5 满 足 F。 

如 末 7 不 满足 El 但 满足 E;,， 那 么 除了 在 规则 2 中 5S(y) = 1 之 外 ， 证 明 是 相同 的 。 而 且 ， 每 当 
52(X) 有 定义 时 ，S(x) 就 一 定 与 $2(x) 一 致 ， 但 S(x) 对 只 在 $1 中 出 现 的 变 元 是 任意 的 。 结 论 是 ， 在 这 
种 情形 下 S$ 也 满足 F。 

( 当 ) 假设 把 E 的 赋值 T 扩 展 为 F 的 赋值 $5，5 满 足 F。 根 据 把 什么 真 值 指派 给 y， 有 两 种 情形 。 
首先 假设 SO) = 0。 于 是 从 h 导 出 的 F 的 所 有 子 句 都 为 真 。 但 是 ，y 无 助 于 满足 从 g 导 出 的 形 如 (y + gi) 
的 子 句 ， 这 意味 着 5 一 定 让 每 个 g; 本 身 为 真 ， 在 本质 上 ，Si 上 Fl 为 真 。 

更 人 礁 确 地 说 ， 设 $1 是 把 5 限制 到 Fi 的 变 元 上 。 于 是 $1 满足 Fi。 根 据 归 纳 假设 ，T，( 即 把 7 限制 
到 的 变 元 上 ) 就 一 定 满足 E1。 原 因 在 于 ，5S1 是 Ti 的 扩展 。T 满 足 E1， 所 以 T 必 须 满足 E (E 是 
EVE,), \ 

还 必须 芳 虑 SO) = 1 的 情形 ， 但 这 种 情形 与 刚刚 看 到 了 的 情形 是 对 称 的 ， 把 证 明 留 给 读者 。 
结论 是 : 每 当 5 满 足 F，7 就 满足 E。 \ 

现在 必须 证 明 : 从 E 构 造 f 的 时 间 ， 至 多 是 E 的 长 度 n 的 平方 。 无 论 是 哪 种 情形 ， 把 E 分 裂 成 
El 和 E2， 以 及 从 所 和 所 构 造 F， 每 部 分 都 花费 E 的 规模 的 线性 时 间 。 设 dn 是 在 情形 1 或 情形 2 中 ， 
从 FE 构造 EL 和 EE 的 时 间 加 上 从 Fi 和 所 构造 的 时 间 之 和 的 上 界 。 于 是 存在 T(n) 的 递 推 方 程 ，T(n) 是 
从 长 度 为 n 的 E 构 造 F 的 时 间 ， 弟 推 方程 的 形式 是 : 

7(1) = 7(2)<e， 对 于 某 个 第 数 e 
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CO own 


TN)<dn+ cmaxosa i(T() + Tn—1—i) )， 对 于 n 宇 3,。 


其 中 < 是 有 待 确定 的 常数 ， 使 得 可 以 证 明 TUD)< cz2。7T(D 和 7(2) 的 基础 规则 只 是 简单 提出 : 如 果 E 
是 单个 符号 或 一 对 符号 ， 则 不 需要 递 推 ， 因 为 已 只 能 是 单个 文字 ， 整 个 过 程 花 费 某 个 时 间 e。 递 
推 规则 利用 下 面 这 个 事实 : 如 果 E 是 用 八 或 V 连接 的 子 表达 式 E1 和 EE 组 成 的 ，Ei 长 度 为 i， 则 EE 长 
度 为 n 一 i 一 1。 而 且 ， 从 E 到 FF 的 整个 转换 是 由 两 个 简单 步骤 组 成 的 ， 把 E 变 成 FE 和 E;， 再 把 Fi 和 
忆 变 成 F (已 知 这 两 个 步 又 至 多 花费 dn 时 间 )， 以 及 从 Ei 到 丙 和 从 Es 到 下 的 两 个 递归 转化 。 

需要 通过 对 nn 归纳 来 证 明 : 存在 常数 c， 使 得 对 于 所 有 n，T(n)<crm。 

基础 : 对 于 = 1， 只 需要 挑选 < 至 少 像 e 那 样 大 。 

归纳 : 假设 对 于 小 于 m 的 长 度 ， 命 题 成 立 于 是 TOD 科 cz 是 To 一 iD 和 co 一 一 D2 因此 ， 

TD + Tai-1)<m—2in—i)—2(n—i)+l1 (10-1) 

因为 n 二 3 且 0 < i < n 一 1， 所 以 2i(n 一 至 少 为 n,，2(n 一 让 至 少 为 2。 因 此 ， 对 于 在 允许 范围 内 的 任 
何 i,， 式 (10-1) 的 右边 小 于 民 一 n。 因 此 在 T(n) 定 义 中 的 递 推 规 则 说 T(n)< dn + cm? 一 cn。 如 果 选 择 c 
>d， 就 可 推出 对 成立 T(n)< cm， 这 样 就 完成 了 归纳 。 因 此 ， 从 E 构 造 F 花 费 O(n”) 时 间 。 口 


例 10.14 说 明 如 何 把 定理 10.13 的 构造 应 用 到 一 个 简单 表达 式 上 : E=xy+x(y+z)。 图 10-7 
说 明 这 个 表达 式 的 语法 分 析 。 每 个 顶点 所 附带 的 CNF 表 达 式 是 为 该 顶点 所 表示 的 表达 式 而 构造 
出 来 的 。 


(Wut+x)uty Mtr utvVtiy) (ur+VvV+z) 





(x )(v +y )(v+z) 


Cy 2 tz 
10-7 把 布尔 表达 式 变换 成 CNF 


树叶 对 应 于 文字 ， 而 对 于 每 个 文字 ， 这 个 CNF 表 达 式 是 由 这 个 文字 单独 组 成 的 一 个 子 句 。 
例如 ， 可 以 看 到 ， 标 记 为 y 的 树叶 带 有 一 个 相关 表达 式 ( y)。 虽 然 括 号 不 是 必要 的 ， 但 是 我 们 在 
CNF 表 达 式 中 加 入 这 些 括号 ， 以 便 帮助 提醒 读者 : 现在 正在 讨论 子 句 之 积 。 

对 于 AND 顶 点 , 一 个 CNF 表 达 式 的 构造 就 只 是 对 于 两 个 子 表达 式 取 所 有 子 句 之 积 (逻辑 与 )。 
因此 ， 例 如 ， 子 表达 式 x(y+7) 的 顶点 具有 一 个 相关 的 CNF 表 达 式 ， 这 个 表达 式 是 x 的 一 个 子 句 
( 即 (x)) 和 y +z 的 两 个 子 句 ( 即 (Yr+y)(vV+z)) 之 积 。 。 


日 ”在 这 个 特殊 情形 里 (y+z 已 经 是 子 句 )， 没 有 必要 完成 关于 这 些 表达 式 的 OR 的 一 般 构 造 ， 本 来 可 以 产生 (y + 2z) 
作为 等 价 于 y +z 的 子 句 之 积 。 但 是 ， 在 这 个 例子 中 ， 还 是 坚持 了 采用 一 般 规则 。 
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对 于 OR 顶点 ， 必 须 引 入 新 的 变 元 。 把 新 变 元 加 入 到 左 运 算 对 象 的 所 有 子 句 中 ， 把 新 变 元 的 
否定 加 入 到 右 运算 对 象 的 所 有 子 名 中。 例如， 考虑 图 10-7 的 根 顶 点 。 这 个 顶点 是 表达 式 zy 
和 x(y+z) 的 逻辑 或 ， 这 两 个 表达 式 的 CNF 已 经 确定 ， 分 别 是 (x)(y) 和 (x)(v+y)(v+z)。3 引 入 新 
变 元 4， 把 未 经 否定 加 入 到 第 一 组 子 句 ，u 在 第 二 组 子 句 中 是 否定 的 。 结 果 是 : 


F =(u+X)(u+ yu +t Xu +t V+ Y(t V+ 7) 


定理 10.13 说 : 任何 满足 E 的 赋值 都 能 扩展 为 满足 F 的 赋值 5。 例 如 ， 赋 值 T(x) = 0; TO) = 1 和 
T(z) = 1 满足 E。 可 以 这 样 把 7 扩展 为 Ss， 由 7 得 到 所 必须 的 S(x) = 0, SO) = 1, SC) = 1， 再 加 入 S(w) = 
1 和 S(v) = 0。 读 者 可 验证 S$ 满 足 F。 

注意 ， 在 $ 的 选择 过 程 中 ， 要 求 选择 S(u) = 1， 原 因 在 于 ，7 只 让 E 的 第 二 部 分 x(y+7z) 为 真 。 
因此 ， 需 要 S(wu) = 1 来 让 子 句 (u+x)(u+y) 为 真 ， 这 个 子 名 来自 E 的 第 一 部 分 。 但 是 ， 可 以 为 v 选 
择 任意 值 ， 因 为 在 子 表达 式 y + z 中 ， 根 据 T 可 知 ， 逻 辑 或 的 两 边 都 为 真 。 口 


10.3.4 3SAT 的 NP 完全 性 


现在 ,证 明 一 个 甚至 更 小 也 具有 NP 完全 的 可 满足 性 问题 的 布尔 表达 式 类 。 回 忆 一 下 ，3SAT 
问题 是 : 


。 给 定 一 个 布尔 表达 式 E，E 是 子 句 之 积 ， 每 个 子 句 是 三 个 不 同文 字 之 和 ，E 是 可 满足 的 吗 ? 


虽然 3-CNF 表 达 式 是 CNF 表 达 式 的 一 小 部 分 ， 但 是 下 一 个 定理 说 明 ， 这 些 表 达 式 足够 复杂 ， 使 得 
其 可 满足 性 检验 是 NP 完全 的 。 


定理 10.15 3SAT 是 NP 完全 的 。 
证 明 ”显然 3SAT 属 于 NP， 因 为 SAT 属 于 NP。 为 了 证 明 NP 完 全 性 ， 将 把 CSAT 归 约 到 3SAT。 
这 个 归 约 如 下 。 给 定 布尔 表达 式 E = ei1 人 e; 人 人 … 人 人 et， 替换 每 个 子 句 e; 如 下 ， 以 产生 新 的 表达 式 F。 
构造 F 所 花费 的 时 间 是 E 的 长 度 的 线性 函数 ， 将 要 看 到 : 一 个 赋值 满足 已 ， 当 且 仅 当 这 个 赋值 能 
扩展 为 F 的 可 满足 赋值 。 
1. 如 果 e; 是 单个 文字 ， 比 如 说 (x)”， 就 引入 两 个 新 变 元 u 和 hv。 把 (x) 换 成 四 个 子 名 (x+u+v) 
(xz+U+y) (xX+U+v) (x+U+v)。 因 为 和 v 以 所 有 组 合 方式 出 现 ， 所 以 满足 全 部 四 个 子 名 
的 惟一 方法 是 让 x 为 真 。 因 此 ， 所 有 E 的 可 满足 赋值 并 且 只 有 E 的 可 满足 赋值 才能 扩展 为 F 
的 可 满足 赋值 。 
2. 假 设 ei 是 两 个 文字 之 和 (x + y)。 引 入 一 个 新 变 元 z:， 把 ei 换 成 两 个 子 句 之 积 (x+y+z]) 
(x+y+z) 。 与 情形 1 中 一 样 ， 满 足 这 两 个 子 句 的 惟一 方法 是 满足 (x +y)。 
3. 如 果 e 是 三 个 文字 之 和 ，& 就 已 经 具有 3-CNF 所 需要 的 形式 ， 所 以 在 构造 的 表达 式 F 中 保 
留 ei。 
4. 假设 对 于 某 个 m 宇 4，e; = (Xi + Xx2+… 十 Xm)。3| 入 新 的 变 元 yi1, 2， …, ym-3， 并 把 ei; 换 成 下 列 


日 为 了 方便 ,将 在 讨论 文字 时 假定 文字 都 是 非 否 定 变 元 (如 x)。 但 如 果 部 分 或 全 部 变 元 是 否定 的 (如 xX )， 则 这 
个 构造 同样 好 地 起 作用 。 


小 


~ 
~ 
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子 句 之 积 
(XK 十 ty KX Fy + yx 十 网 十 了) 
(WT (10-2) 
满足 五 的 赋值 7 一 定 让 e 的 至 少 一 个 变 元 为 真 ， 比 如 说 7 让 xz 为 真 (提醒 一 下 ,可 能 是 变 
元 或 否定 变 元 )。 因 此 , :如 果 让 yr; y2, "yo 为 真 ， 并 让 yi ，…, ym_s 为 假 ， 则 满足 式 
(10-2) 的 全 部 子 句 。 因 此 ， 可 以 扩展 7 满足 这 些 子 句 。 反 之 ， 如 果 Ti 上 所 有 x 都 为 假 ， 则 不 
可 能 扩展 7 了 让 式 (10-2) 为 真 。 原 因 在 于 ， 存 在 着 m 一 2 个 子 名 ， 而 m 一 3 个 y 中 ， 每 个 y 无 论 
古 真 或 是 假 ， 都 只 能 让 一 个 子 句 为 真 。 
因此 已 经 证 明 : 如 何 把 CSAT 的 每 个 实例 E 归 约 为 3SAT 的 实例 Ff， 使 得 F 是 可 满足 的 当 且 仅 当 
E 是 可 满足 的 。 这 个 构造 显然 需要 E 的 长 度 的 线性 时 间 ， 原 因 在 于 ， 上 述 四 种 情形 都 不 把 子 句 伸 
长 到 超过 32/3 倍 (32/3 是 情形 1 中 符号 数 的 比值 )， 并 且 在 与 F 需 要 的 符号 数 成 比例 的 时 间 里 就 能 
轻而易举 地 计算 出 这 些 符号 。 因 为 CSAT 是 NP 完全 的 ， 所 以 得 出 3-SAT 同 样 是 NP 完全 的 。 口 


10.3.5 习题 
习题 10.3.1 把 下 面 的 布尔 表达 式 化 为 3-CNF: 


*a) Xy+XZ, 
b) wxyz+u+v,。 
c) WXy + XUV 。 
习题 10.3.2 ”4TA-SAT 问 题 定义 如 下 : 给 定 一 个 布尔 表达 式 E，E 是 否 至 少 有 四 个 可 满足 赋 
值 ? 证 明 4TA-SAT 是 NP 完全 的 。 
习题 10.3.3 在 本 题 中 将 定义 一 族 3-CNF 表 达 式 。 表 达 式 E, 有 n 个 变 元 x1, 2, …, x,。 对 于 每 一 
组 在 1 和 "之 间 的 三 个 不 同 整数 训 j 和 上 ， 玉 有 子 句 (5 + 万 + 坟 ) 和 (+x + 区 ) 。 对 于 下 面 的 值 ， 
是 可 满足 的 吗 ? 
*!1 a) n=4? 
Dn=S2 
: 习题 10.3.4 ”给 出 解答 2SAT 问 题 的 多 项 式 时 间 算法 ，2SAT 是 每 个 子 句 只 有 两 个 文字 的 布尔 
表达 式 的 可 满足 性 问题 。 提 示 : 如 果子 句 的 两 个 文字 中 有 一 个 为 假 ， 则 另 一 个 文字 被 迫 为 真 。 
首先 假设 一 个 变 元 的 真 值 ， 然 后 对 其 余 变 元 分 析 所 有 可 能 的 后 果 。 


10.4 其 他 的 NP 完 全 问题 


现在 将 要 给 出 一 个 小 型 的 示范 过 程 ， 通 过 这 个 过 程 ， 一 个 NP 完全 问题 就 导致 证 明 其 他 问题 
也 是 NP 完全 的 。 这 个 发 现 新 的 NP 完全 问题 的 过 程 具有 两 种 重要 作用 .: 

* 当 发 现 一 个 问题 是 NP 完全 时 ， 这 就 说 明 ， 几 平 不 可 能 设计 出 有 效 的 算法 来 解答 这 个 问题 。 
或 励 寻 找 启发 式 、 部 分 解 、 近 似 或 其 他 方法 ， 来 避免 正面 攻克 这 个 问题 。 而 且 ， 可 以 具有 
这 样 的 信心 : 不 是 由 于 “缺少 技巧 ” 才 这 样 做 的 。 

* 每 当 把 一 个 新 的 NP 完 全 问题 P 加 入 到 这 个 表 中 ， 就 再 次 强化 了 这 个 思想 ， 所 有 NP 完全 问 
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题 都 需要 指数 时 间 。 那 些 毫 不 迟疑 地 投入 到 寻找 P 的 多 项 式 时 间 算 法 的 努力 ， 无 意 中 成 了 1458 
证 明 P2 = 和 2P 的 工作 。 许 多 有 很 高 技巧 的 科学 家 和 数学 家 在 证 明 等 价 于 2 = NP 的 东 些 命题 
上 的 不 成 功 尝试 越 积 越 多 ， 最 终 说 服 大 家 相信 : 不 但 ?= NP 是 非常 不 太 可 能 的 ， 而 且 更 进 
一 步 ， 所 有 NP 完 全 问题 都 需要 指数 时 间 。 
在 本 节 ， 遇 到 几 个 与 图 有 关 的 NP 完 全 问题 。 这 些 问 题 属 于 图 问题 之 列 ， 在 解答 具有 实际 重 
要 性 的 问题 时 是 最 常用 的 。 本 节 将 要 讨论 以 前 在 10.14 节 过 到 过 的 货 郎 问题 “TSP) 。 本 节 还 将 证 
明 这 个 问题 的 简化 但 同样 重要 的 版 本 ( 称 为 哈密 顿 回 路 问题 (HC)) 是 NP 完全 的 ， 从 而 证 明 更 
有 具 一 般 性 的 TSP 是 NP 完 全 的 。 将 要 介绍 与 图 的 “ 履 盖 ”有 关 的 其 他 几 个 问题 ， 比 如 “顶点 覆盖 
问题 ， 这 个 问题 要 求 在 每 条 边 至 少 有 一 端 属于 所 选择 集合 的 意义 下 ， 找 出 “ 履 盖 所 有 边 的 最 
小 顶点 集 。 


10.4.1 描述 NP 完 全 问题 


在 介绍 新 的 NP 完全 问题 时 ， 将 使 用 下 列 特殊 样式 的 定义 : 

1. 问题 的 名 称 ， 通 稼 是 缩写 ， 比 如 3SAI 或 TSP。 

2. 问题 的 输入 : 表示 什么 ， 以 及 如 何 表示 。 

3. 所 需要 的 输出 : 在 什么 情况 下 输出 应 当 是 “是 ”? 

4. 建立 归 约 所 利用 的 问题 ， 以 证 明 所 定义 的 问题 是 NP 完全 的 。 


例 10.16 下 面 说 明 ， 对 3SAT 问 题 的 描述 及 其 NP 完 全 性 的 证 明 , 看 起 来 可 能 是 : 

问题 : 3-CNF 表 达 式 的 可 满足 性 (3SAT)。 

输入 : 具有 3-CNF 形 式 的 布尔 表达 式 。 

输出 :“ 是 ” 当 且 仅 当 这 个 表达 式 是 可 满足 的 。 

归 约 来 自 : CSAT。 加 


10.4.2 独立 集 问 题 


设 C 是 一 个 无 问 图 。 如 采 在 C 的 顶点 子 集 7 中 任何 两 点 都 没有 G 的 边 相 连 ， 则 称 / 是 独立 集 。 
如 末 一 个 独立 集 不 小 于 (顶点 数 不 少 于 ) 原 图 的 任何 独立 集 ， 则 这 个 独立 集 就 是 最 大 的 。S 459 


例 10.17 在 图 10-1 (参见 10.1.2 市 ) 中 ，{1, 人 是 最 大 独立 集 。 这 是 规模 为 2 的 惟一 的 独立 集 ， 
因为 任何 其 他 顶点 对 之 间 都 有 边 。 因 此 没有 规模 为 3 或 更 大 的 独立 集 ， 比 如 {1, 2, 4} 不 是 独立 集 ， 
因为 在 1 和 2 之 间 有 边 。 因 此 {1, 4} 是 最 大 独立 集 。 在 一 般 情 况 下 ， 一 个 图 可 以 有 多 个 最 大 独立 集 ， 
但 是 事实 上 ，{1, 4} 是 这 个 图 惟一 的 最 大 独立 集 。 另 一 个 例子 是 ，{1} 是 这 个 图 的 独立 集 ， 但 不 
是 最 大 的 。 口 


在 组 合 优化 中 ， 通常 把 最 大 独立 集 间 题 陈述 为 :给 定 一 个 图 ， 求 最 大 独立 集 。 但 在 难 解 问 
题 理论 中 ， 所 有 问题 都 需要 用 是 / 否 的 术语 来 陈述 。 因 此 需要 在 问题 的 陈述 中 引入 下 界 ， 把 问题 


日 原文 maximal 指 “ 极 大 的 "， 据 上 下 文 应 是 maximum， 指 “最 大 的 ”。 一 一 译 者 注 
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陈述 为 : 给 定 的 图 是 否 具 有 不 小 于 这 个 下 界 的 独立 集 。 最 大 独立 集 问题 的 形式 化 定义 是 : 

问题 ， 独 立 集 (IS)。 

输入 : 图 G 和 下 界 k，k 必 须 在 1 到 G 的 顶点 数 之 间 。 

输出 :“ 是 ” 当 且 仅 当 G 具 有 k 个 顶点 的 独立 集 。 

归 约 来 自 : 3SAT。 

正如 承诺 过 的 那样 ”必须 用 来 自 3SAT 的 多 项 式 时 间 归 约 去 证 明 IS 是 NP 完全 的 。 这 个 归 约 在 
下 二 个 定理 中 。 


定理 10.18 独立 集 问题 是 NP 完全 的 。 
证 明 ” 首先， 容易 看 出 : IS 属 于 NP。 给 定 图 G 和 限度 :， 猜 测 k 个 顶点 并 验证 这 些 顶 点 是 独 
立 的 。 
现在 ,证 明 如 何 完 成 从 3SAT 到 IS 的 归 约 。 设 E = (e1)(e?)…(em) 是 3-CNF 表 达 式 。 从 E 构 造 出 一 
个 有 3m 个 顶 扣 的 图 G， 将 要 把 这 些 顶点 命名 为 [i, 人 用 ， 其 中 1<i<m 并 且 j = 1, 2, 3。 顶 点 [i, 咱 表示 
子 句 e; 中 的 第 个 文字 。 图 10-8 是 图 G 的 例子 ， 这 个 图 是 基于 下 面 的 3-CNF 表 达 式 的 : 
(Xi + Xt XK TX + (T+ A + XT + + ) 


图 中 的 列表 示 子 句 ， 稍 后 将 解释 为 什么 边 是 这 样 的 。 


图 10-8 从 可 满足 的 3-CNF 布 尔 表 达 式 来 构造 独立 集 


在 G 的 构造 背后 的 “技巧 ”是 : 利用 边 迫 使 m 个 顶点 的 任何 独立 集 都 表示 满足 表达 式 E 的 方 
式 。 有 两 个 关键 性 的 思想 。 
1. 希 望 确保 只 能 选择 一 个 对 应 于 给 定子 句 的 顶点 。 通 过 在 一 列 中 所 有 顶点 对 之 间 都 放 上 边 ， 
来 做 到 这 一 点 ， 即 如 图 10-8 所 示 ， 对 于 所 有 i， 创 造 出 边 ([i, 1], [i, 2]), ([i, 1], [i, 3]), ([i, 2]， 
[i, 3])。 
2. 必须 防止 为 独立 集 选 择 表示 补 文字 的 那些 顶点 。 因 此 ， 如 果 存 在 两 个 顶点 [i, 门 和 应 , 记 ])， 
使 得 其 中 一 个 表示 变 元 x， 另 一 个 表示 x ， 那 就 在 这 两 个 顶点 之 间 放 上 边 。 因 此 ， 不 可 能 
为 同一 个 独立 集 选择 这 两 个 顶点 。 
对 于 根据 这 两 条 规则 所 构造 的 图 G， 限 度 k 是 m。 
不 难看 出 ， 如 何在 与 E 的 长 度 成 比例 的 时 间 内 构造 出 图 G 和 限度 k&， 所 以 从 E 到 G 的 转换 是 多 
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项 式 时 间 归 约 。 必 须 证 明 : 这 个 变换 把 3SAT 正 确 地 归 约 到 IS。 也 就 是 说 : 
。E 是 可 满足 的 ， 当 且 仅 当 G 有 规模 为 m 的 独立 集 。 


( 当 ) 首先 , 注意 : 独立 集 不 可 能 包括 来 自 同一 个 子 句 的 两 个 顶点 [加 和 [i, 训 ,对 于 茶 个 坟 关 如。 
原因 在 于 ， 在 图 10-8 的 列 中 可 以 看 到 ， 在 每 对 这 样 的 顶点 之 间 都 有 边 。 因 此 ， 如 果 存 在 规模 为 m 
的 独立 集 ， 则 这 个 独立 集 必须 包括 来 自 每 个 子 句 的 恰好 一 个 顶点 。 

而 且 ， 独 立 集 不 可 能 包括 与 变 元 x 及 其 否定 x 相对 应 的 两 个 顶点 。 原 因 在 于 ， 所 有 这 样 的 顶 
点 对 之 间 都 有 一 条 边 。 因此， 规模 为 m 的 独立 集 ! 就 产生 E 的 一 个 可 满足 赋值 如 下 : 如 果 与 变 元 x 
对 应 的 顶点 属于 I， 则 让 T(x) = 1， 如 果 与 否定 变 元 x 对 应 的 顶点 属于 T， 则 选择 T(x) = 0。 如 果 1 中 
没有 顶点 对 应 于 x 或 x ， 则 任意 地 选择 T(x)。 注 意 ， 上 面 列举 的 第 (2) 条 解释 了 为 什么 不 存在 矛盾 ， 
即使 1 中 的 顶点 既 对 应 于 x 又 对 应 于 x 。 

我 们 断言 : 7 满足 E。 原 因 在 于 ，E 的 每 个 子 句 都 在 I 中 有 一 个 顶点 ， 这 个 顶点 对 应 于 这 个 子 
句 的 一 个 文字 ， 这 样 选择 T7， 使 得 T 让 这 个 文字 为 真 。 因 此 ， 当 规模 为 的 独立 集 存 在 时 ，E 是 可 
满足 的 。 

( 仅 当 ) 现在 假设 某 个 赋值 (如 T) 让 E 可 满足 。7TiEE 的 每 个 子 句 都 为 真 ， 所 以 能 从 每 个 
子 句 找 出 一 个 在 T 下 为 真 的 文字 。 对 于 某 些 子 句 ， 可 能 有 两 三 个 文字 可 供 选 择 ， 如 果 是 这 样 ， 
就 从 其 中 任 选 一 个 。 选 择 与 从 每 个 子 句 选 出 的 文字 相对 应 的 顶点 ， 就 构造 出 有 m 个 顶点 的 集 
合 1。 

我 们 断言 : {是 独立 集 。 来 自 相 同 子 句 的 顶点 (图 10-8 中 的 列 ) 之 间 的 边 不 可 能 两 端 都 属于 1， 
因为 从 每 个 子 句 只 选择 一 个 顶点 。 连 接 变 元 及 其 否定 的 边 ， 不 可 能 两 端 都 属于 I[， 因 为 只 给 1 选择 
在 赋值 T 下 为 真 的 文字 所 对 应 的 顶点 。 当 然 ，7 将 使 * 和 x 其 中 一 个 为 真 ， 但 决 不 会 两 个 都 为 真 。 
结论 是 : 如 果 E 是 可 满足 的 ， 则 G 有 规模 为 m 的 独立 集 。 

因此 ， 存 在 从 3SAT 到 IS 的 多 项 式 时 间 归 约 。 已 知 3SAT 是 NP 完全 的 ， 所 以 根据 定理 10.5，IS 
也 是 NP 完全 的 。 口 


例 10.19 看 看 定理 10.18 的 构造 如 何 对 下 面 的 情形 起 作用 ， 其 中 
E=(x, +X;+ XX + Xx +X (Xi + A 
在 图 10-8 中 已 经 看 到 过 从 这 个 表达 式 得 出 的 图 。 顶 点 处 在 与 四 个 子 句 对 应 的 四 列 中 。 对 于 每 个 
顶点 ,不仅 显示 了 这 个 顶点 的 名 称 (一 对 整数 )， 而 且 显 示 了 这 个 顶点 对 应 的 文字 。 广 意 ， 在 一 
列 中 每 对 顶点 之 间 如 何 连 边 ， 这 些 顶 点 对 应 着 一 个 子 句 中 的 文字 。 在 对 应 于 变 元 及 其 否定 的 每 
对 顶点 之 间 也 存在 着 边 。 例 如 ， 对 应 于 x, 的 顶点 [3, 1] 与 {1, 2] 和 [2, 2] 这 两 个 顶点 之 间 有 边 ， 这 
两 个 顶点 各 自 对 应 于 % 的 一 次 出 现 。 

已 经 用 黑色 轮廓 选择 了 有 四 个 顶点 的 集合 7， 每 列 选 择 一 个 顶点 。 这 些 顶 点 显然 构成 独立 集 。 
因为 这 些 顶点 的 四 个 文字 是 .， ,Xx，,， x ， 因 此 可 以 从 这 些 顶 点 构造 出 赋值 7， 让 T(x1) = 1, Tx2) 
=1,7(x)= 1, T(x4) =0。 虽然 对 于 xs 也 必须 赋值 ， 但 是 可 以 任意 选择 (比方 说 T(xs) =0) 。 现 在 7 请 
足 E， 顶 点 集合 1 从 每 个 子 句 中 指明 在 T 下 为 真 的 文字 。 口 
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是 - 否 ” 问 题 更 容易 吗 ? 


读者 可 能 会 担心 ， 问 题 的 “是 - 否 ” 版 本 要 易于 优化 版 本 。 例 如 ， 可 能 难以 求 出 最 大 
独立 集 ， 但 给 定 小 的 限度 k 可 能 易于 验证 存在 规模 为 的 独立 集 。 虽 然 这 是 真 的 ， 但 同样 为 
真 的 是 : 有 可 能 给 定 的 常数 k 恰 好 就 是 独立 集 存在 的 最 大 规模 。 如 果 是 这 样 ， 则 解答 “是 一 
人 否 ” 版 本 就 需要 求 出 最 大 独立 集 。 

事实 上 ， 所 有 普通 NP 完全 问题 的 “是 一 否 ” 版 本 与 优化 版 本 在 复杂 度 上 都 是 等 价 的 ， 
至 少 其 差别 是 在 多 项 式 之 内 。 在 典型 情况 下 ( 像 在 IS 的 情形 中 )， 假 如 有 多 项 式 时 间 算 法 求 
出 最 大 独立 集 ， 则 可 以 这 样 解答 “是 -- 否 ”问题 : 求 出 最 大 独立 集 ， 验 证 这 个 最 大 独立 集 
是 否 至 少 不 小 于 限度 上 。 因 为 我 们 将 要 证 明 “ 是 - 否 ”版 本 是 NP 完 全 的 ， 所 以 优化 版 本 也 一 
定 是 难 解 的 。 

换个 方 回 也 能 进行 比较 。 假 设 “ 是 - 否 ” 问 题 TS 有 多 项 式 时 间 算 法 。 如 果 图 有 7 个 顶点 ， 
则 最 大 独立 集 规模 是 在 1 到 n 之 间 。i 上 IS 跑 遍 在 1 与 4 之 间 的 所 有 限度 ， 就 确实 能 在 n 倍 于 解答 
一 过 IS 所 花费 的 时 间 内 ， 求 出 最 大 独立 集 的 规模 (但 不 一 定 是 最 大 独立 集 本 身 )。 事 实 上 ， 


使 用 二 分 搜索 ， 在 运行 时 间 上 只 需要 logzn 倍 数 。 


独立 集 有 什么 用 途 ? 


本 书 的 目标 不 是 详细 讨论 那些 被 证 明 为 NP 完 全 的 问题 的 应 用 。 但 是 ，10.4 节 中 的 问题 
都 选 自 R. Karp 关 于 NP 完全 性 的 英 基 性 文章 ， 在 这 篇 文章 中 ，Karp 考 察 了 来 自 运筹 学 领域 的 
取 重 要 的 问题 ， 并 证 明了 其 中 许多 问题 都 是 NP 完全 的 。 因 此 ， 有 充足 的 证 据 可 用 于 说 明 ， 
真实 ”问题 是 利用 这 些 抽象 问题 来 解答 的 。 

例如 ， 可 以 使 用 求 大 独立 集 的 好 算法 来 安排 期 末 考 试 ; 设 图 的 顶点 是 课程 ， 如 果 有 至 
少 一 个 学 生 同 时 学 习 两 门 课程 ， 则 在 两 个 顶点 之 间 连 边 ， 因 此 这 两 门 课程 的 期 未 考试 不 能 
安排 在 同一 时 间 。 如 果 求 出 了 最 大 独立 集 ， 就 能 安排 这 些 课程 同时 进行 期 未 考试 ， 以 确保 
将 没有 学 生 面 临时 间 冲 突 。 : 





10.4.3 顶点 覆盖 问题 


妃 寺 类 重要 的 组 合 优化 问题 都 与 图 的 “覆盖 ”有 关 。 例 如 ， 边 履 盖 是 边 的 一 个 集合 ， 使 得 
有 门 图 中 每 个 顶点 都 至 少 有 一 条 有 向 边 属于 这 个 集合 。 如 果 一 个 边 覆 盖 在 原 图 的 任意 边 收 盖 中 
具有 最 少 边 数 ， 则 这 个 边 覆 盖 集 合 是 最 小 的 。 判 定 一 个 有 向 图 是 否 具有 k 条 边 的 边 履 盖 ， 这 个 问 
题 是 NP 完全 的 ,但 在 这 里 将 不 予 证 明 。 

本 市 将 要 证 明 项 点 益 善 问题 是 NP 完全 的 。 图 的 顶点 覆盖 是 使 得 每 条 边 都 至 少 有 一 个 端点 在 
这 个 集合 中 的 顶点 的 一 个 集合 。 如 果 一 个 顶点 覆盖 在 原 图 的 任意 顶点 覆盖 中 具有 最 少 顶 点 数 ， 
那么 这 个 顶点 覆盖 就 是 最 小 的 。 

顶点 覆盖 与 独立 集 有 密切 关系 。 事 实 上 ， 独 立 集 的 补 就 是 顶点 覆盖 ， 反 之 亦 然 。 因 此 ， 如 


A 


果 适 当地 陈述 顶点 覆盖 问题 (NC) 的 “是 -- 否 ”版 本 ， 则 从 IS 出 发 的 归 约 是 非常 简单 的 。 
问题 ， 顶 点 覆盖 问题 (NC)。 
输入 : 图 G 和 上 界 k，k 必 须 是 在 从 0 到 G 的 顶点 数 减 一 之 间 。 
输出 :“ 是 ” 当 且 仅 当 G 有 不 超过 k 个 顶点 的 顶点 有 覆盖 。 
归 约 来 自 : 独立 集 。 


定理 10.20 顶点 覆盖 问题 是 NP 宪 全 的 。 

证 明 显然 NC 属于 WNP。 猜测 k 个 项 后 的 一 个 集合 ， 验 证 G 的 每 条 边 都 至 少 有 一 个 端点 属于 
这 个 集合 。 

为 了 完成 证 明 ， 将 要 把 IS 归 约 到 NC。 如 图 10-8 所 示 ， 归 约 的 思想 是 : 独立 集 的 补 是 顶点 覆 
盖 。 例 如 ， 在 图 10-8 中 ， 无 粗 线 轮廓 的 顶点 的 集合 构成 硕 点 覆盖 。 粗 线 轮 廓 顶点 其 实 是 最 大 独 
立 集 ， 所 以 其 余 顶 点 构成 最 小 顶点 覆盖 。 

归 约 如 下 。 设 G 和 下 和 界 k 是 独立 集 问 题 的 一 个 实例 。 如 果 G 有 nn 个 顶点 ， 则 把 G 和 上 界 n 一 k 作 
为 造 出 的 顶点 履 瘟 问题 实例 。 显 然 能 在 多 项 式 时 间 内 完成 这 个 变换 。 断 言 : 


*G 有 规模 为 k 的 独 并 集 ， 当 且 仅 当 G 有 规模 为 n 一 k 的 顶点 覆盖 。 


( 当 ) 设 N 是 G 的 顶点 集合 ， 设 C 是 规模 为 n 一 k 的 顶点 覆盖 。 断 言 N 一 C 是 独立 集 。 假 设 不 是 
这 样 ， 即 在 N 一 C 中 存在 顶点 对 v 和 hw， 在 v 和 w 之 间 有 G 中 的 边 。 于 是 v 和 w 都 不 属于 C， 所 以 所 谓 
的 项 挟 履 盖 C 并 不 窗 盖 G 中 的 (v, w)。 用 归 雇 法 已 经 证 明了 N 一 C 是 独立 集 。 显 然 这 个 集合 有 k 个 顶 
尽 ， 所 以 这 个 方向 的 证 明 已 经 完成 。 


( 仅 当 ) 假设 是 有 k 个 顶点 的 独立 集 。 断 言 ， N 一 [是 有 7 一 k 个 顶点 的 顶点 覆盖 。 同 样 用 归 雇 


法 来 进行 证 明 。 如 果 存在 某 条 边 (v, w) 没 有 被 N 一 1 覆盖 ， 则 v 和 w 都 属于 I[， 但 v 和 w 有 边 相 连 ， 这 
与 独立 集 的 定义 相 巴 盾 。 加 


10.4.4 有 回 哈密 顿 回 路 问题 


想 要 证 明 货 郎 问 题 (TSP) 是 NP 完 全 的 ， 因 为 这 个 问题 是 组 合 学 中 最 受 关注 的 问题 之 一 。 
这 个 问题 的 NP 完 全 性 的 最 著名 证 明 其 实 是 证 明 一 个 更 简单 的 问题 ( 即 所 谓 “ 哈 密 顿 回路 问题 ” 
(HC)) 是 NP 完 全 的 。 哈 密 顿 回路 问题 可 描述 如 下 : 

问题 : 哈密 顿 回路 问题 。 

输入 : 无 向 图 C。 

输出 :“ 是 ” 当 且 仅 当 G 有 哈密 顿 回 路 ， 即 经 过 G 每 个 顶点 恰好 一 次 的 回路 。 
注意 HC 问 题 是 TSP 的 特殊 情形 ， 在 HC 问 题 中 边 上 所 有 权 都 是 1。 因 此 ， 从 HC 到 TSP 的 多 项 式 时 
间 归 约 是 非常 简单 的 : 仅仅 给 图 中 每 条 边 的 说 明 加 上 权 1。 

HC 的 NP 完 全 性 证 明 是 非常 困难 的 。 本 书 的 方法 是 介绍 HC 的 更 受 限 制 的 版 本 ， 其 中 边 有 方 
癌 〈 即 边 是 有 向 边 或 箭 弧 ) ， 要 求 哈密 顿 回 路 沿 正 确 方 向 经 过 箭 驶 。 把 3SAT 归 约 到 HC 问 题 的 这 
个 有 问 版 本 上 ， 然 后 把 这 个 版 本 归 约 到 HC 的 标准 (或 无 向 ) 版 本 上 。 

问题 ， 有 癌 哈 密 顿 回路 问题 (DHC)。 
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输入 : 有 向 图 G。 
输出 :“ 是 ” 当 且 仅 当 G 中 存在 有 向 回路 经 过 G 每 个 顶点 恰好 一 次 。 
归 约 来 自 : 3SAT。 


定理 10.21 有 癌 哈 密 顿 回路 问题 是 NP 完全 的 。 

证 明 ”证明 DHC 属 于 Nr， 这 是 容易 的 ， 猜 测 回路 并 验证 所 需要 的 箭 弧 都 在 图 中 出 现 。 必 须 
把 3SAT 归 约 到 DHC， 这 个 归 约 需要 构造 复杂 的 图 ， 用 “小 配件 ”( 或 专用 子 图 ) 来 表示 3SAT 实 
例 中 每 个 文字 和 每 个 子 句 。 / 

为 了 开始 从 一 个 3-CNF 布 尔 表达 式 构造 一 个 DHC 实 例 ， 设 表达 式 是 E = e1 人 e; 人 … A 人 e:， 其 中 
每 个 ei 都 是 子 句 ， 即 三 个 文字 之 和 ， 例如 ei = (Qi + Oz + 03), 设 X1, NW Xn 是 E 的 变 元 。 如 图 10- 
9 所 示 ， 为 每 个 子 句 和 每 个 变 元 都 构造 出 一 个 “小 配件 ”。 





c) 


图 10-9 在 哈密 顿 回 路 问题 是 NP 完全 的 证 明 中 使 用 的 构造 


mh 对 于 每 个 变 元 %， 构 造 具 有 如 图 10-9a 所 示 结 构 的 子 图 有 H。 这 里 ，m; 是 在 E 中 x 出现 次 数 与 
466| 出现 次 数 之 中 较 大 者 。 在 两 列 顶 点 b 和 c 中 ， 在 by 和 cy 之 间 ， 在 两 个 方向 上 都 有 箭 弧 。 而 且 每 个 b 
都 有 到 其 下 方 c 的 箭 弧 ; 即 只 要 j < mi， 就 有 从 bi 到 ci,j+ 的 箭 绝 。 同样 ， 对 于 j < m， 从 cy 到 bi j+1 
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有 箭 弧 。 最 后 。 还 有 上 端 顶点 0i， ai 到 bio 和 ca 都 有 第 弧 ， 以 及 下 端 脚 顶点 di， 人 队 bim, 和 ci， 到 4 都 
有 箭 绝 。 

图 10-9b 勾 画 了 整个 图 的 结构 。 每 个 六 边 形 表示 一 个 对 应 于 变 元 的 小 配件 ， 这 个 小 配件 具有 
10-9a 的 结构 。 一 个 小 配件 的 下 端 顶 点 有 到 下 一 个 小 配件 的 上 端 顶点 的 箭 弧 ， 这 些 箭 弧 组 成 回路 。 

假设 图 10-9b 的 图 具有 有 向 哈密 顿 回路 。 还 可 假设 回路 从 a! 开 始 。 如 果 这 条 回路 下 一 步 到 达 
bio， 则 断言 这 条 回路 必须 接着 到 达 cio， 因 为 假如 不 是 这 样 ， 则 cio 永 远 不 会 在 回路 中 出 现 。 在 证 
明 中 注意 ， 如 果 这 条 回路 从 a 到 bio 到 cn， 则 cio 的 两 个 前 驱 ( 即 a 和 bio) 都 已 经 在 回路 上 了 ， 所 
以 这 条 回路 永远 不 能 包括 cio。 

因此 ， 如 果 这 条 回路 从 wm, bo 开始 ， 则 这 条 回路 必须 沿 着 “梯子 ”继续 向 下 ， 在 两 边 来 回 交 
替 ， 成 为 


Ul， Bs Cio， bi, Ci， *", Bi Cim， d, 
如 果 这 条 回路 从 ai, cwo 开 始 ， 则 按照 在 同一 层 上 c 在 5 前 面 的 顺序 ， 沿 着 “梯子 ” 同 下 ， 成 为 
Ul, Cios b,, Cl， b,， i gy Bd 


这 个 证 明 中 的 关键 之 处 在 于 : 可 以 认为 第 一 种 顺序 ， 即 从 c 到 下 一 层 的 5»， 仿 佛 让 这 个 小 配件 对 
应 的 变 元 为 真 ， 而 从 b 到 下 一 层 c 的 顺序 ， 对 应 于 让 这 个 变 元 为 假 。 

在 遍历 了 小 配件 Hl 之 后 ， 这 条 回路 必须 到 达 a,。， 在 这 里 有 男 一 次 选择 :下 一 步 到 达 bzo 或 c20。 
但 对 于 有 i! 曾 论证 过 ,一旦 做 出 从 q2 辣 左 还 是 同 右 的 选择 ， 则 经 过 本 的 路 人 径 就 固定 了 。 在 一 般 情 
况 下 ， 如 果 不 打算 让 某 个 顶点 不 可 达 ， 即 这 个 顶点 不 可 能 在 有 癌 哈 密 顿 回路 中 出 现 ， 因 为 其 所 
有 前 驱 都 已 经 出 现 了 ， 那 么 当 进 入 有 :时 ， 就 不 得 不 选择 向 左 还 是 向 右 ， 而 别 无 其 他 选择 。 

在 接 下 来 的 讨论 中 ， 可 以 认为 : 做 出 从 a; 到 bn 的 选择 ， 就 是 让 变 元 x 为 真 ， 而 选择 从 ai 到 cn， 
就 等 于 让 变 元 x 为 假 ， 这 样 做 是 有 帮助 的 。 因 此 ， 图 10-9b 恰 好 有 2 个 有 向 哈密 顿 回路 ， 对 应 着 7 
个 变 元 的 > 种 赋值 。 

但 是 ， 图 10-9b 只 是 为 3-CNF 表 达 式 而 产生 的 图 的 轮廓 。 如 图 10-9c 所 示 ， 对 于 每 个 子 句 e 引 
入 另 一 个 子 图 厂 。 小 配件 具有 性 质 : 如 果 回 路 从 rj; 进入 1; ， 则 这 条 回路 一 定 从 志 离开， 如果 回路 
从 5 进入 ， 则 一 定 从 yj 离 开 ， 如 有 果 回 路 从 5 进入 ， 则 一 定 从 wj; 离开。 证 明 如 下 。 如 有 果 回 路 进入 后 ， 
无 论 怎样 在 六 内 罕 行 ， 但 是 不 从 进入 大 时 那个 顶 氮 下 方 的 顶点 离开 ， 则 一 个 或 多 个 顶点 是 不 可 达 
的 ， 即 这 些 顶 后 永远 不 出 现在 回路 上 。 由 于 对 称 性 ， 可 以 只 考虑 rj 是 1; 在 回路 上 的 第 一 个 顶点 的 
情形 。 有 三 种 情形 : 

1. 在 回路 上 ， 接 下 来 两 个 顶点 是 s; 和。 如 果 回 路 接着 到 达 wj 并 离开 4 ， 则 yj 是 不 可 达 的 。 如 

采 回 路 接着 到 达 w 和 vw 并 离开 I ， 则 ww 是 不 可 达 的 。 因 此 ， 回 路 一 定 在 遍历 了 小 配件 的 六 
个 顶点 之 后 从 离开 6。 

2. 在 rj 之 后 ， 接 下 来 两 个 顶点 是 s; 和 v;。 如 果 回 路 不 接着 到 达 u; ， 则 ww 成 为 不 可 达 的 。 如 果 
在 WW 之后, 回路 接着 到 达 w;， 则 # 永 远 不 能 出 现在 回路 上 。 其 论证 是 不 可 达 性 论证 的 “ 逆 ”。 
现在 ， 能 从 外 面 到 达 ;y ， 但 如 果 回 路 在 以 后 包含 # ， 则 接 下 来 将 没有 顶点 可 以 为 继 ， 因 为 # 
的 两 个 后 继 顶 点 都 已 经 出 现在 回路 上 了 。 因 此 ， 在 这 种 情形 下 ， 回 路 也 从 w 离开 4; 。 但 是 
注意 ， 剩 下 和 wj 还 没有 经 过 ， 这 两 个 顶点 将 在 以 后 出 现在 回路 上 ， 这 是 可 能 的 。 
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3. 回路 从 rj 直接 到 达 u; 。 如 采 回 路 接着 到 达 w ， 则 永远 不 能 出 现在 回路 上 ， 因 为 在 情形 (2) 
中 曾 论 证 过 ，# 的 两 个 后 继 顶 点 都 已 经 出 现在 回路 上 了 。 因 此 ， 在 这 种 情形 下 ， 回 路 一 定 
直接 从 ww 离开 1; ， 剩 下 其 余 四 个 顶点 在 以 后 加 入 到 回路 上 。 

为 了 完成 构造 表达 式 E 的 图 G， 把 4 连接 到 及 ;如 下 : 假设 在 子 句 ej 中 第 一 个 文字 是 非 否 定 变 
元 y。 对 于 在 0 到 mi 一 1 范围 内 的 p， 挑 选 某 个 顶点 ci,s，cis 还 没有 用 于 连接 到 一 个 I 小 配件 的 目的 。 
引入 从 cp 到 ny 和 从 刀 到 bi, w+ 的 箭 弧 。 如 果子 名 6 的 第 一 个 文字 是 否定 变 元 x ， 则 找 出 一 个 没有 
用 过 的 pi。 把 bip 连接 到 x; 并 把 连接 到 ci,p+1。 

对 于 e 的 第 二 个 和 第 三 个 文字 ， 把 同样 的 东西 加 入 图 中 ， 但 有 一 点 例外 。 对 于 第 二 个 文字 ， 
使 用 项 后 s; 和 v; ， 对 于 第 三 个 文字 ， 使 用 顶点 清和 w 。 因 此 ， 每 个 厂 到 五 小 配件 有 三 个 连接 ， 分 别 
表示 子 句 ej 中 涉及 的 三 个 文字 。 如 果 文 字 是 非 否定 的 ， 则 这 样 的 连接 来 自 一 个 c 顶 点 并 返回 下 面 
的 5b 顶 抬 ， 如 果 文 字 是 否定 的 ， 则 这 个 连接 来 自 一 个 5b 顶点 并 返回 下 面 的 c 顶 点 。 断 言 : 


* 如 此 构造 的 图 G 具 有 有 向 哈密 顿 回 路 ， 当 且 仅 当 表达 式 E 是 可 满足 的 。 


( 当 ) 假设 存在 E 的 可 满足 赋值 7。 构 造 有 向 哈密 顿 回路 如 下 : 
1. 首先 根据 赋值 7 构造 只 遍历 妨 ( 即 图 10-9b 中 的 图 ) 的 路 径 。 也 就 是 说 ， 如 果 7T(x;) = 1， 则 
回路 从 a; 到 bw， 如 果 T(x;) =0， 则 回路 从 a; 到 cio。 
2. 但 是 ， 如 果 迄 今 为 止 所 构造 的 回路 经 过 从 pz 到 ci, + 1 的 箭 弧 ， 且 bi, 发 出 另 一 条 箭 绝 通 向 
还 没有 包含 在 回路 中 的 ， 则 在 回路 中 引入 “绕道 ”"， 这 条 绕道 把 1 的 六 个 顶点 都 包含 在 
回路 中 ， 返 回 ci,y + 1。 虽然 箭 弧 bp 一 ci ;1 将 不 再 在 回路 上 ， 但 是 这 条 箭 绝 的 端点 都 还 在 
回路 上 。 
3. 同样 ， 如 果 回 路 有 从 cp 到 bi ;1 的 篆 弧 ， 且 ci 发 出 另 一 条 箭 弧 通 向 还 没有 合并 在 回路 中 的 
1 ， 则 修改 回路 ,， “绕道 ”经 过 的 六 个 顶点 。 
7 三 足 E 这 个 事实 确保 了 步骤 (1) 所 构造 的 原始 路 径 将 包含 至 少 一 条 箭 红 ， 这 条 箭 弧 在 步骤 (2) 
或 步骤 (3) 中 允许 对 于 每 个 子 句 ej 包含; 。 因 此 ， 所 有 J 都 包含 在 回路 中 ， 这 条 回路 成 为 有 向 哈密 
顿 回路 。 
( 仅 当 ) 现在 ,假设 图 G 具 有 有 向 哈密 顿 回路 。 必 须 证 明 E 是 可 满足 的 。 首先， 从 迄今 为 止 
所 做 的 分 析 中 回忆 两 个 要 点 : \ 
1. 如 果 哈 密 顿 回路 从 rj , sj 或 进入 某 个 万 ， 则 这 条 回路 一 定 相 应 地 从 wj , v; 或 wj 离开 J。 
2. 因此 ， 如 末 认 为 哈密 顿 回路 穿 过 了 8 小 配件 的 回路 (如 图 10-9b 所 示 )， 则 可 以 认为 ， 该 路 
线 到 某 个 上 的 行程 似乎 是 沿 着 与 第 弧 by 一 ci,p+1 或 cp 一 biy41 之 一 “平行 ” 的 箭 弧 的 回路 。 
如 本 忽略 了 到 三 的 行程 ， 则 哈密 顿 回 路 一 定 只 使 用 太 可 能 有 的 2" 个 回路 中 的 一 个 。 这 些 选 择 
每 个 都 对 应 于 对 E 变 元 的 赋值 。 如 果 这 些 选 择 中 的 一 个 产生 包含 /的 哈密 顿 回 路 ， 则 这 个 赋值 一 
定 满 足 巨 。 
原因 在 于 ， 如 果 回 路 从 aw 到 如 ， 那 么 车 第 /个 子 名 把 zx 作为 其 三 个 变 元 之 一 ， 则 回路 只 能 走 
到 站 。 如 采 回 路 从 aw 到 co， 那 么 若 第 /个 子 名 把 作为 其 三 个 变 元 之 一 ， 则 回路 只 能 走 到 4 。 因 此 ， 
可 以 包含 所 有 刀 小 配件 ， 这 个 事实 蕴涵 着 ,赋值 让 每 个 子 句 的 三 个 文字 中 至 少 一 个 为 真 ， 即 EB 是 
可 满足 的 。 由 
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例 10.22 ”基于 3-CNF 表 达 式 E=(x,+x,+x)(Xi+x,+x) 来 给 出 定理 10.21 的 构造 的 非常 简 
单 的 例子 。 构 造 的 图 如 图 10-10 所 示 。 虽 然 连 接 有 类 型 小 配件 和 1 类 型 小 配件 的 往 弧 用 虚线 表示 ， 
以 改进 可 读 性 ， 但 是 在 虚线 箭 绝 与 实 线 箭 绝 之 间 没 有 其 他 区 别 。 

例如 ， 在 左上 方 看 到 zi 的 小 配件 。 因 为 xi 一 次 否定 出 现 ， 一 次 肯定 出 现 ,“ 梯 子 ”只 需要 一 
步 ， 所 以 有 两 行 bp 和 c。 在 左下 方 看 到 x 的 小 配件 ， 加 两 次 肯定 出 现 ， 没 有 否定 出 现 。 因 此 ， 需 要 
两 个 不 同 的 箭 弧 cy 一 b3,p+1， 可 以 用 这 两 个 入 统 连 上 LL 和 的 小 配件 ， 来 表示 在 这 些 子 句 中 使 用 x;。 
这 就 是 为 什么 x 的 小 配件 需要 三 个 b 一 c 行 。 

考虑 小 配件 ， 这 个 小 配件 对 应 于 子 句 (x,+x,+x) 。 对 于 第 一 个 文字 x ， 把 bio 连 到 rp 并 把 
Ww 连 到 cn。 对 于 第 二 个 文字 入， 同样 连接 bzo, s2, v2, ca。 第 三 个 文字 (是 肯定 的 ) 连 到 下 面 的 c 和 
b， 即 把 ca1 连 到 并 把 ws 连 到 b3,。 

若干 个 可 满足 赋值 中 的 一 个 是 mm = 1, ww = 0, x3 = 0。 对 于 这 个 赋值 ， 第 一 个 子 句 被 其 第 一 个 
文字 x! 所 满足 ， 而 第 二 个 子 句 被 其 第 二 个 文字 x 所 满足 。 对 于 这 个 赋值 ， 能 设计 出 让 箭 弧 a 一 
bio, Qd2™* C20， a3 一 ca 都 在 上 面 出 现 的 哈密 顿 回路 。 这 个 回路 从 下 绕 到 1， 以 覆盖 第 一 个 子 句 ; 即 这 
个 绕道 使 用 往 弧 cio 一 r1， 行 遍历 的 所 有 顶点 ， 返 回 bu。 从 太 到 .的 绕道 覆盖 第 二 个 子 句 ， 从 入 
弧 bz 一 $2 开始 ， 行 过 历 I; 的 所 有 顶点 ， 返 回 cx1。 在 图 10-10 中 ， 整 个 哈密 顿 回 路 用 粗 线 ( 实 线 或 
虚线 ) 和 非常 大 的 箭头 来 表示 。 





图 10-10 哈密 顿 回 路 构造 的 例子 


+ 上、 
iD 
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10.4.5 无 向 哈密 顿 回路 与 TSP 


证 明 无 问 哈密 顿 回路 问题 和 货 郎 问题 也 是 NP 完全 的 ， 是 相当 容易 的 。 在 10.1.4 节 已 经 看 到 
TSP 属 于 NP。HC 是 TSP 的 特殊 情形 ， 所 以 HC 也 属于 NP。 必 须 完成 从 DHC 到 HC 和 从 HC 到 TSP 的 
归 约 。 

问题 : 无 癌 哈密 顿 回路 问题 。 

输入 : 无 向 图 G。 

输出 :“ 是 ” 当 且 仅 当 G 有 哈密 顿 回路 。 

归 约 来 自 : DHC。 


定理 10.23 HC 是 NP 完全 的 。 
证 明 ”把 DHC 归 约 到 HC 如 下 。 假 设 给 定 有 向 图 Gz。 所 构造 的 无 向 图 将 称 为 G,。 对 于 Gs 的 每 
一 个 顶点 v， 在 Gi 中 存在 着 三 个 顶点 v0, vD, y2。C. 的 边 是 


1. 对 于 Gs 的 所 有 项 点 v， 在 G 申 存在 着 边 (vo vo) 和 (v0; ya。 0) 9 
2. 如 果 在 Gs 中 有 箭 弧 vw， 则 在 G, 中 有 边 (v%,w0))。 
图 10-11 提 示 边 的 模式 ， 包 括 对 应 于 箭 弧 v 一 w 的 边 。 后 Go 
显然 ， 从 Cu 到 G@ 的 构造 能 在 多 项 式 时 间 内 完成 。 必 须 证 明 ， 
。 GO 有 哈密 顿 回路 ， 当 且 仅 当 Gz 有 有 向 哈密 顿 回 路 。 © CC 
(3 假设 vi， VS vi 是 有 问 哈密 顿 回路 。 于 是 肯定 

V1O), Vi YI p20), pa), p20), va), e+, Vo), ya), YD, TO) pe ci 


是 G, 中 的 无 向 哈密 顿 回路 。 也 就 是 说 ， 沿 每 列 向 下 ， 然 后 跳 到 下 一 列 顶 上 ， ”到 阶 0 的 边 
就 模拟 Cv 的 一 条 箭 绝 。 

( 仅 当 ) 注意 ，G, 的 每 个 顶点 vv 只 有 两 条 边 ， 因 此 车 vv 在 哈密 顿 回路 中 出 现 ， 则 一 定 把 v0 
和 v% 其 中 一 个 作为 直接 前 驱 ， 另 一 个 作为 直接 后 继 。 因 此 G, 的 哈密 顿 回路 的 顶点 的 上 标 ， 一 定 
在 模式 0, 1, 2, 0, 1, 2, … 或 相反 的 模式 2, 1, 0, 2, 1, 0, … 之 间 变 化 。 因 为 这 些 模式 对 应 着 沿 两 个 不 
同方 向 来 遍历 回路 ， 所 以 也 可 以 假设 模式 是 0, 1, 2, 0, 1, 2, …。 因此 ;如 果 考 虑 回路 中 从 上 标 为 2 
的 顶点 到 上 标 为 0 的 顶点 之 间 的 边 ， 则 可 以 知道 ， 这 些 边 是 Gu 中 的 箭 弧 ， 并 且 回 路 沿 着 箭 绝 所 指 
的 方向 经 过 每 一 条 边 。 因 此 ，G, 中 的 无 向 哈密 顿 回 路 就 产生 Gs 中 的 有 向 哈密 顿 回路 、 口 


问题 : 货 郎 问题 。 

输入 : 边 带 整数 权 的 无 向 图 G， 限 度 k。 

输出 :“ 是 ” 当 且 仅 当 G 有 哈密 顿 回路 ， 使 得 回路 上 边 的 总 权 不 超过 上。 
归 约 来 自 : HC 


定理 10.24 货 郎 问题 是 NP 完全 的 。 
证 明 来 日 HC 的 归 约 如 下 。 给 定 图 G， 构 造 带 权 图 G'， 基 顶点 和 边 与 G6 的 相同 ， 每 条 边 权 为 
1， 限 度 kK 等 于 G 的 顶点 数 %。 于 是 ，G' 有 长 度 为 n 的 哈密 顿 回路 当 且 仅 当 G 有 哈密 顿 回路 。 口 
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10.4.6 NP 完全 问题 小 结 


图 10-12 标 明了 在 本 章 中 完成 的 所 有 归 约 。 注意, 已 经 揭示 了 从 所 有 具体 问题 (比如 TSP) 
到 SAT 的 归 约 。 在 这 之 前 ， 在 定理 10.19 中 ， 已 经 把 每 一 个 多 项 式 时 间 非 确定 型 图 灵机 都 归 约 
到 SAT。 没 有 明确 地 指出 ， 这 些 图 灵机 中 至 少 包括 一 个 解答 TSP 的 、 一 个 解答 IS 的 等 等。 
此 ， 所 有 NP 完全 问题 彼此 之 间 都 有 多 项 式 时 间 归 约 ， 实 际 上 ， 都 是 同一 个 问题 的 不 同 
面 扎 。 


po 


. 


图 10-12 NP 完全 问题 之 则 的 归 约 


10.4.7 习题 


* 习题 10.4.1 一 个 图 G 的 k 团 是 G 的 k 个 顶点 的 集合 ， 使 得 这 个 集合 中 每 对 顶点 之 间 都 有 边 。 
因此 ，2 团 就 是 用 边 连 接 的 2 个 顶点 ，3 团 就 是 三 角形 。CLIQUE 问 题 是 : 给 定 一 个 图 G 和 常数 ， 
G 有 没有 K 团 ? | 

a) 对 于 图 10-1 中 的 图 G， 满 足 CLIQUE 的 最 大 k 是 多 少 ? 
b) 作为 的 函数 ， 一 个 k 团 有 多 少 条 边 ? 
c) 通过 把 顶点 覆盖 问题 归 约 到 CLIQUE 来 证 明 : CLIQUE 是 NP 完全 的 。 

*! 习题 10.4.2 着 色 问 题 是 : 给 定 一 个 图 G 和 一 个 整数 k，G 是 否 “k 可 着 色 ”; 也 就 是 说 ， 能 否 
给 G 的 每 个 顶点 分 配 k 种 颜色 中 的 一 种 ， 使 得 每 一 条 边 的 两 个 端点 都 有 不 同 颜 色 ? 例 如， 图 10-1 
的 图 是 3 可 着 色 的 ， 因 为 能 给 顶点 1 和 4 分 配 红 色 ， 给 顶点 2 绿色 ， 给 顶点 3 蓝 色 。 一 般 说 来 ， 如 果 
一 个 图 有 k 团 ， 则 这 个 图 不 能 低 于 k 可 着 色 ， 但 是 可 能 需要 远 远 超过 k 种 颜色 。 

在 本 习题 中 ， 将 给 出 部 分 构造 来 证 明 着 色 问 题 是 NP 完全 的 ;， 剩余 的 构造 必须 由 读者 补 上 。 
归 约 来 自 3SAT。 假 设 有 个 带 n 个 变 元 的 3CNF 表 达 式 。 归 约 把 这 个 表达 式 转换 为 图 ， 图 的 一 部 分 
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如 图 10-13 所 示 。 在 左 方 看 到 n + 1 个 顶点 co, c1,…, c* 构成 (az + 1) 团 。 因 此 ， 必 须 用 不 同 的 颜色 来 
给 这 些 顶 氮 中 的 每 一 个 着 色 。 将 把 分 配给 c 的 颜色 当 作 “颜色 c ”。 


图 10-13 证 明 着 色 问 题 是 NP 完 全 的 部 分 构造 


而 且 ， 对 于 每 个 变 元 xs， 都 存在 两 个 顶点 ， 可 以 被 分 别 认 为 是 立 和 无 。 这 两 个 顶点 用 边 连 
接 ， 所 以 不 能 同色 。 而 且 ， 对 于 除 0 和 i 之 外 的 所 有 .j， 每 个 x; 顶 点 都 连接 到 c; 。 结 果 就 是 ， 在 和 
中 x ， 必 须 一 个 着 色 co， 另 一 个 着 色 ci。 把 着 色 co 的 一 个 当 作 真 ， 另 一 个 当 作假 。 因 此 ， 选 择 的 
着 色 就 对 应 于 赋值 。 

为 了 完成 构造 ， 读 者 需要 设计 对 应 于 表达 式 每 个 子 句 的 那 部 分 图 。 应 当 是 ， 有 可 能 只 用 co 到 
cs 的 颜色 来 完成 这 个 图 的 着 色 ， 当 且 仅 当 所 选择 颜色 对 应 的 赋值 使 得 每 个 子 句 都 为 真 。 因 此 ， 
所 构造 的 图 是 (n+ 1) 可 着 色 的 ， 当 且 仅 当 给 定 的 表达 式 是 可 满足 的 。 

! 习题 10.4.3 在 关于 一 个 图 的 NP 完全 的 提问 变 成 非常 难以 用 手工 来 解答 之 前 ， 这 个 图 其 实 不 
必 很 大 。 考 虑 图 10-14 中 的 图 。 

* a) 这 个 图 有 哈密 顿 回 路 吗 ? 

b) 最 大 独立 集 是 什么 ? 

c) 最 小 顶点 覆盖 是 什么 ? 

d) 最 小 边 覆 盖 (参见 习题 10.4.4b)) 是 什么 ? 

e) 这 个 图 是 2 可 着 色 的 吗 ? 

习题 10.4.4 证 明 下 列 问题 是 NP 完全 的 : 

a) 子 图 同 构 问题 给 定 图 G1/ 和 G,，，G1 是 否 包含 G; 作 为 子 图 ? 也 就 是 说 ， 当 适当 选择 从 G; 顶 

点 到 G1 子 图 顶点 之 间 的 对 应 关系 时 ， 能 否 找 到 Gi 顶点 的 一 个 子 集 以 及 这 些 顶点 之 间 的 G， 
475 边 ， 来 一 起 构成 G6, 的 一 个 精确 的 副本 ? 提示 : 考虑 来 自习 题 10.4.1 的 团 问题 的 归 约 。 
!b) 反馈 边 问题 : 给 定 一 个 有 向 图 G 和 一 个 整数 k:，G 有 没有 k 条 有 向 边 的 集合 ， 使 得 G 的 每 个 
回路 都 至 少 有 一 条 有 向 边 属于 这 个 集合 ? 
! C0) 整数 线性 规划 问题 ,给 定形 如 ”a,x，<c 或 了 "a,x, 三 c 的 线性 约束 条 件 的 集合 ， 其 中 和 ec 
都 是 整数 常数 ，xi, z2, …, x 都 是 变 元 ， 是 否 存 在 对 于 每 个 变 元 的 整数 赋值 ， 使 得 所 有 约 
束 条 件 都 为 真 ? 
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图 10-14 一 个 图 


! d) 支配 集 问题 : 给 定 一 个 图 G 和 一 个 整数 k:，G 有 没有 Kk 个 顶点 的 子 集 5， 使 得 G 的 每 个 顶点 都 
属于 4 或 与 S 中 顶点 相 邻 ? 

e) 消防 站 问题 ， 给 定 一 个 图 G， 一 个 距离 4， 以 及 一 个 “消防 站 数 ” 预 算 f{， 能 否 选 择 G 的 /个 
顶 操 ， 使 得 G 每 个 顶点 都 与 茶 个 消防 站 距离 (必须 经 过 的 边 数 ) 不 超过 d? 

*!) 半 团 问题 ， 给 定 一 个 带 n 个 顶点 的 图 G，G 有 没有 由 G 的 恰好 一 半 顶 点 组 成 的 团 (参见 习题 
10.4.1) ? 提示 : 把 CLIQUE 归 约 到 半 团 问题 。 必 须 想 出 如 何 加 入 顶点 来 调节 最 大 团 的 规 
模 。 

!! g) 单位 执行 时 间 调 度 问 题 : 给 定 k 个 “作业 ”i, T2,…, TT， 一 个 “处 理 器 ” 数 p， 一 个 “时 
上 则 限度 ”t， 以 及 作业 对 之 间 形 如 7T;< 7 的 “优先 性 约束 条 件 ”， 有 没有 作业 的 一 个 调度 ， 
使 得 : 

1. 每 个 作业 都 分 配 到 1 与 之 间 的 一 个 时 间 单 位 ， 

2. 任何 一 个 时 间 单 位 都 至 多 分 配 到 p 个 作业 ， 并 且 

3. 服 从 优先 性 约束 条 件 ， 也 就 是 说 ， 如 果 T;< 7 是 约束 条 件 ， 则 把 7 分配 到 比 早 的 时 间 单 
位 ? 


1 h) 恰当 秦 盖 问题 ,给 定 一 个 集合 S 和 5 的 子 集 族 51, S;, …, S$,， 是 否 存在 一 个 集 族 T CS {51, 5;， 


…, Sn}， 使 得 $ 的 每 个 元 素 都 恰好 属于 7 的 一 个 成 员 ? 
!1i) 背包 问题 ,给 定 k 个 整数 的 一 个 列表 ii, iz, …, it， 能 否 将 这 些 整 数 分 成 总 和 相等 的 两 个 集 
合 ? 注意 : 这 个 问题 表面 上 属于 PZ， 因为 可 能 假设 整数 本 身 都 较 小 。 的 确 ， 如 果 整 数 的 值 
都 限制 为 整数 个 数 k 的 某 个 多 项 式 ， 则 存在 多 项 式 时 间 算 法 。 但 是 ， 在 总 长 度 为 +， 用 二 进 
制 表示 的 k 个 整数 的 列表 中 ， 有 些 整数 的 值 可 能 几乎 是 n 的 指数 。 
习题 10.4.5 一 个 图 G 的 哈密 顿 通路 是 全 部 顶点 m,n2,…, ni 的 一 个 排列 ， 使 得 对 于 所 有 i = 1， 
2,…,K 一 1， 从 ni 到 ni;1 有 边 。 有 疝 图 的 有 向 哈密 顿 通路 是 同样 定义 的 ， 但 必须 从 n; 到 ni; 1 有 入 弧 。 
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注意 ， 哈 窗 顿 通路 的 要 求 只 稍 弱 于 哈密 顿 回路 的 条 件 。 如 果 还 要 求 从 ni 到 nw 有 边 或 第 弧 ， 则 这 恰 
好 就 是 哈密 顿 回路 的 条 件 。( 有 向 ) 哈密 屯 通 路 问题 是 : 给 定 (有 向 ) 图 ， 这 个 图 是 否 至 少 有 一 
条 (有 向 ) 哈密 顿 通路 ? 
* a) 证 明 : 有 向 哈密 顿 通路 问题 是 NP 完全 的 。 提 示 ; 完成 来 自 HDC 的 归 约 。 选 择 任意 一 个 顶 
点 ， 将 这 个 顶点 分 成 两 个 顶点 ， 使 得 这 两 个 顶点 一 定 是 有 向 哈密 顿 通路 的 端点 ， 并 且 存 
在 这 样 的 通路 当 且 仅 当 原 图 具有 有 向 哈密 顿 回路 。 
b) 证 明 ，( 无 向 ) 哈密 顿 通 路 问题 是 NP 完全 的 。 提 示 : 改造 定理 10.23 的 归 约 。 
*!1 c) 证 明 下 面 的 问题 是 NP 完全 的 : 给 定 一 个 图 G 和 一 个 整数 :，G 有 没有 叶 顶 点 数 不 超 过 k 的 生 
成 树 ? 提示 : 完成 来 自 哈密 顿 通路 问题 的 归 约 。 
! d) 证 明 下 面 的 问题 是 NP 完全 的 : 给 定 一 个 图 G 和 一 个 整数 4，G 有 没有 顶点 度数 都 不 超过 d 
的 生成 树 ? (顶点 n 在 生成 树 中 的 度数 是 树 中 以 n 为 端点 的 边 数 .) 


10.5 小结 


“2 类 和 NP 类 : 2 由 所 有 在 某 个 多 项 式 时间 (作为 输入 长 度 的 函数 ) 内 运行 的 图 灵机 所 接 
受 的 语言 或 问题 组 成 。X2 是 沿 着 任何 非 确定 型 选择 序列 花费 的 时 间 都 具有 多 项 式 时 间 界 
限 的 非 确定 型 图 灵机 所 接受 的 语言 或 问题 的 类 。 

"P= NP 问题 : 虽然 人 们 强烈 地 怀疑 ， 存 在 着 属于 NP 但 不 属于 2 的 语言 ， 但 是 还 不 知道 ， 
P 了 和 WP 到 底 是 不 是 相同 的 语言 类 。 

“多 项 式 时 间 归 约 ， 如 果 在 多 项 式 时 间 内 ， 可 以 把 一 个 问题 的 实例 变换 成 具有 相同 答案 (是 
或 否 ) 的 第 二 个 问题 的 实例 ， 则 说 第 一 个 问题 多 项 式 时 间 归 约 到 第 二 个 问题 。 

“ NP 元 全 问题 ， 如果 一 个 语言 属于 Nr， 并且 存在 着 从 每 个 NP 语言 到 这 个 语言 的 多 项 式 时 
间 归 约 ， 则 这 个 语言 是 NP 完全 的 。 人 们 坚信 没有 NP 完全 问题 属于 2， 至 今 没 有 人 发 现 几 
千 个 已 知 NP 完全 问题 中 任何 一 个 问题 的 多 项 式 时 间 算 法 ， 这 些 事实 共同 加 强 了 NP 完 全 问 
题 都 不 属于 P 的 证 据 。 

“NP 元 全 的 可 满足 性 问题 : 通过 在 多 项 式 时 间 内 ， 把 所 有 NP 问题 都 归 约 到 SAT 问 题 ， 库 页 
定理 证 明了 第 一 个 NP 完全 问题 (布尔 表达 式 是 否 可 满足 )。 即 使 表达 式 限于 由 各 自 只 念 三 
个 文字 的 子 句 的 乘积 组 成 (3SAT 问 题 ) ， 这 个 问题 仍然 是 NP 完 全 的 ， 

。 其 他 NP 完 全 问题 : 存在 着 大 量 已 知 的 NP 完 全 问题 ， 利用 从 某 个 先前 知道 的 NP 完 全 问题 发 
出 的 多 项 式 时 间 归 约 ， 来 证 明 其 中 每 个 问题 都 是 NP 完 全 的 。 本 书 给 出 了 证 明 以 下 NP 完 全 

478 问题 的 归 约 :独立 集 ， 顶 点 覆盖 ,哈密 顿 回路 问题 的 有 向 或 无 向 版 本 ， 货 郎 问题 。 
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第 11 章 其 他 问题 类 


难 解 问题 并 不 仅 限于 WP 。 有 许多 其 他 的 问题 类 也 是 难 解 的 ， 或 者 由 于 其 他 一 些 原因 而 使 人 


感 兴 趣 。 例 如 P=NP 问题 ， 有 许多 关于 这 些 类 的 问题 还 没有 解决 。 

首先 看 与 2 和 NP 关系 密切 的 一 个 类 : Nz 语言 的 补 的 类 ,通常 称 之 为 KP 补 (co-NP) 。 。 
如 条 P=NP ， 则 co-XP 等 于 二 者 ， 因 为 2 对 于 补 运算 是 封闭 的 。 但 是 co-NzP 可 能 与 这 两 者 都 不 
同 ,事实 上 WzP 完全 问题 可 能 都 不 属于 co-W2P 。 

然后 考虑 25 类， 这 是 所 有 使 用 输入 长 度 的 多 项 式 长 度 的 带 的 图 灵机 所 能 解决 的 问题 。 允 许 
这 些 图 灵机 使 用 指数 长 度 的 时 间 ， 但 只 能 使 用 限制 长 度 的 带 。 与 多 项 式 时 间 的 情形 不 同 ， 可 以 
证 明 当 限制 到 多 项 式 空间 时 ， 非 确定 性 并 不 增强 图 灵机 的 能 力 。 尽 管 25 显然 包含 整个 KP， 但 
不 知道 25 是 否 等 于 NP， 也 不 知道 25 是 否 等 于 P。 不 过 估计 这 两 个 等 式 都 不 成 立 ， 可 以 给 出 一 
个 是 25 完全 的 但 似乎 不 属于 NP 的 问题 。 

然后 转向 随机 算法 以 及 介 于 了 与 NP 之 间 的 两 个 语言 类 。 一 个 类 是 由 “随机 多 项 式 ” 语 言 
成 的 RP 类 。 这 些 语 言 都 有 一 种 在 多 项 式 时 间 内 运行 的 利用 “ 抛 硬币 ”或 者 (在 实践 中 ) 随机 数 
发 生 絮 的 算法 。 这 种 算法 要 么 证 实 输入 是 否 属于 语言 ， 要 么 说 “不 知道 ”"。 而 且 ， 如 果 输 入 属于 
语言 ， 则 算法 以 大 于 0 的 概率 报告 成 功 ， 所 以 重复 运行 这 种 算法 就 将 以 趋 于 1 的 概率 来 证 实 输入 
的 成 员 性 。 

第 二 个 类 被 称 为 ZzPP ( 零 错 误 概率 多 项 式 )， 也 与 随机 化 有 关 。 但 是 这 类 语言 的 算法 要 么 说 
“是 ”( 输 入 属于 语言 )， 要 么 说 “ 否 ”( 输 入 不 属于 语言 )。 这 种 算法 的 期 望 运行 时 间 是 多 项 式 的 。 
但 是 这 种 算法 的 有 些 运 行 却 可 能 要 花费 超过 任何 多 项 式 界 限 所 允许 的 时 间 。 

为 了 把 这 些 概念 联系 在 一 起 ， 考 虑 素数 性 测试 的 重要 问题 。 现 今 的 许多 密码 系统 都 建立 在 
下 面 这 两 个 条 件 之 上 : 

1. 快速 发 现 大 素数 的 能 力 〈 为 了 人 允许 以 防止 外 人 窃听 的 方式 在 机 器 之 间 通 信和 )。 

2. 一 项 假设 : 如 果 以 二 进 制 整数 的 长 度 z 的 函数 来 度量 时 间 ， 那 么 整数 因子 分 解 需要 指数 

时 间 。 

长 久 以 来 ， 素 数 测试 的 复杂 性 一 直 是 一 个 开放 性 问题 。 一 方面 ， 正 如 我 们 所 看 到 的 ， 素 数 
测试 既 属 于 NP 又 属于 co-NP， 因 此 它 似乎 不 是 NP 完全 的 。 然 而 迄今 为 止 这 个 问题 仍然 没有 多 
项 式 时 间 的 算法 。 但 是 ， 有 一 个 精致 的 实用 的 随机 算法 ， 因 此 我 们 下 结论 说 素数 性 测试 问题 是 
属于 RP 的 。 最 近 ， 一 个 确定 的 、 多 项 式 时 间 的 素数 测试 问题 的 算法 的 发 现 解决 了 这 种 模棱两可 
的 局 面 。 我 们 将 仅 给 出 随机 的 算法 ， 这 种 算法 在 实践 中 效果 很 好 且 易 于 实现 ， 这 正 是 密码 系统 
的 重要 的 输入 要 求 ， 而 素数 测试 问题 又 是 密码 测试 系统 的 重要 组 成 部 分 。 


日 “在 下 文中 为 了 在 公式 中 便于 表述 ， 多 用 co -xp 表示 Jp 补 ，_ 编者 注 
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11.1 9 中 的 语言 的 补 


2 语言 类 对 于 补 封闭 (参见 习题 10.1.6)。 这 可 以 简单 证 明 如 下 。 设 L 属 于 2， 设 M 是 接受 Z 的 
图 灵机 。 修 改 M 以 接受 了 如 下 : 引入 新 的 接受 状态 9， 每 当 M 在 非 接受 状态 下 停机 时 ， 新 的 TM 就 
转移 到 状态 9， 让 M 以 前 的 接受 状态 都 变 成 非 接受 状态 。 经 过 修改 的 图 灵机 接受 工 ， 而 且 与 M 的 
运行 时 间 一 样 ， 有 可 能 多 一 步 移动 。 因 此 ， 若 L 属 于 2， 则 工 也 属于 2。 

不 知道 NP 是 否 对 于 补 封闭 。 似 乎 不 封闭 ， 特 别 是 估计 当 语 言 L 是 NP 完全 的 时 候 ,L 的 补 不 
属于 NP。 


11.1.1 WP 补 语言 类 


NP 补 (co-NP) 是 那些 其 补 属于 NP 的 语言 的 集合 。 在 11.1 节 开头 曾 注 意 到 每 个 2 中 语言 的 
补 还 属于 P 了 ， 因 此 属于 WP。 另 一 方面 ， 相 信 没 有 NP 完全 问题 的 补 NP 完全 问题 
属于 Nr?， 因 此 NP 完全 问题 都 不 属于 co-NP 。 与 之 类 似 ， 相 信 NP 
完全 问题 的 补 (依照 定义 属于 co-NP ) 都 不 属于 NP。 图 11-1 给 出 
我 们 相信 的 2、X2P 以 及 co-NP 类 的 相关 联 的 方式 。 不 过 应 当 记 住 ， 
一 旦 证 明 2 等 于 WP， 所 有 这 三 个 类 其 实 就 是 同一 个 类 。 


例 11.1 考虑 SAT 语 言 的 补 ， 这 个 补 肯定 属于 co-XP 。 称 这 个 
补 为 USAT (不 可 满足 的 ) 。USAT 中 的 串 包 括 所 有 表示 不 可 满足 
的 布尔 表达 式 的 串 。USAT 中 的 串 也 包括 不 表示 有 效 布尔 表达 式 
的 串 ， 因 为 的 确 这些 串 都 不 属于 SAT: 我 们 相信 USAT 不 属于 Xp， 
却 没 有 证 明 。 NP 完全 问题 的 补 

另外 一 个 例子 被 怀疑 属于 co-XP 而 不 属于 NP 的 问题 是 TAUT， ”图 11-1 猜测 的 co- Xp 与 其 他 
这 个 问题 是 所 有 那些 是 重 言 式 〈 即 对 于 每 种 赋值 都 为 真 ) 的 ( 编 语言 类 之 间 的 关系 
码 过 的 ) 布尔 表达 式 的 集合 。 注意 ， 表 达 式 E 是 重 言 式 ， 当 且 仅 当 -E 是 不 可 满足 的 。 因 此 ， 
TAUT 和 USAT 有 这 样 的 关系 : 只 要 布尔 表达 式 E 属 于 TAUT， 则 ~E 就 属于 USAT， 反 之 亦 然 。 但 
是 USAT 也 包含 不 表示 有 效 表 达 式 的 串 ， 而 TAUT 中 所 有 的 串 都 是 有 效 表达 式 。 口 





11.1.2 NP 完全 问题 与 Xp 补 


假设 ?NP。 关 于 NP 补 (co-W2P) 的 情况 仍然 有 可 能 不 是 恰好 如 图 11-1 所 示 ， 因 为 可 能 WP 
村 于 co 而 大 于 2?。 也 就 是 说 ， 读 者 也 许 会 发 现 ; 与 USAT 和 TAUT 类 似 的 问题 可 以 在 非 确定 型 
多 项 式 时 间 内 解决 ( 即 这 些 问 题 属于 NP)， 却 不 能 在 确定 型 多 项 式 时间 内 解决 。 但 是 ， 我 们 其 
全 连 一 个 补 属于 2 的 NP 完全 问题 都 还 没有 发 现 ， 这 个 事实 是 Xp 尖 co-W2 的 强 有 力 证 据 ， 正 如 
在 下 一 个 定理 中 所 证 明 的 那样 。 


定理 11.2 NP=co-NP ， 当 且 仅 当 某 个 WP 完全 问题 的 补 属 于 WP 。 
证 明 〈 仅 当 ) 假设 NP 和 co-WP 是 相等 的 ， 则 每 个 NP 完全 问题 过 (属于 NP) 都 肯定 属于 
co-NP 。co-WP 同 题 的 补 属于 NP， 所 以 L 的 补 属 于 WP。 


OO 


( 当 ) 假设 P 是 NP 完全 问题 ，P 的 补 P 属 于 NP。 则 对 于 每 个 NP 中 的 语言 5， 都 存在 从 5 到 P 
的 多 项 式 时 间 归 约 。 这 个 归 约 也 是 从 工 到 PP 的 多 项 式 时 间 归 约 。 下 面 通过 证 明 互相 包含 来 证 明 
NP= co-XP 。 

NP C co-NP : 假设 L 属 于 NP。 则 工 属 于 co-NP 。 把 从 工 到 PP 的 多 项 式 时 间 归 约 与 假设 
的 P 的 非 确 定型 多 项 式 时 间 算法 结合 起 来 ， 就 产生 工 的 非 确 定型 多 项 式 时 间 算 法 。 对 于 NP 中 
任意 的 L，L 也 属于 NP?。 因 此 作为 NP 中 的 语言 的 补 ， 工 属于 co-XP。 这 个 事实 说 明 NP S co- 
MNP, 

co- NP S NP : 假设 L 属 于 co-NP。 则 存在 从 工 到 P 的 多 项 式 时 间 归 约 ， 因 为 P 是 NP 完全 的 而 
且 工 属于 NP。 这 个 归 约 也 是 从 L 到 P 的 归 约 。 由 于 PP 属于 Nr， 把 这 个 归 约 与 PP 的 非 确定 型 多 
项 式 时间 算 法 结合 起 来 ， 就 证 明志 属于 Xp。 口 


11.1.3 习题 


! 习题 11.1.1 下 面 是 一 些 问题 。 辨 别 每 个 问题 是 否 属于 WP 以 及 是 否 属于 co-NP。 描 述 每 个 问 
题 的 补 。 如 果 问 题 或 问题 的 补 是 NP 完全 的 ， 还 要 进行 证 明 。 
* a) TRUE-SAT 问 题 : 给 定 布尔 表达 式 E， 当 全 部 变 元 都 为 真 时 E 为 真 ， 是 否 存 在 变 元 不 都 为 
真 的 某 个 其 他 赋值 使 E 为 真 ? 
b) FALSE-SAT 问 题 : 给 定 布 尔 表达 式 E， 当 全 部 变 元 都 为 假 时 E 为 假 ， 是 否 存 在 变 元 不 都 为 
假 的 某 个 其 他 赋值 使 E 为 假 ? 
c) DOUBLE-SAI 问 题 : 给 定 布尔 表达 式 E， 是 否 至 少 存 在 两 个 赋值 使 E 为 真 ? 
d) NEAR-TAUTI9I 题 ;给 定 布尔 表达 式 E， 是 否 至 多 存在 一 个 赋值 使 E 为 假 ? 
*! 习题 11.1.2 假设 存在 函数 {， 它 是 从 n 位 整数 到 n 位 整数 的 双 射 函数 ， 使 得 : 
1.f(X) 可 以 在 多 项 式 时 间 内 计算 。 
2. 广 (Go 不 能 在 多 项 式 时 间 内 计算 。 
证 明 : 由 使 得 
sy 
这 样 的 整数 对 (x, y) 组 成 的 语言 应 当 属于 ( NP mn co- WP ) 一 2。 


11.2 在 多 项 式 空间 内 可 解决 的 问题 


现在 看 这 样 一 个 问题 类 ， 这 个 类 包含 全 部 NP， 而 且 似 乎 包含 更 多 的 东西 ， 虽 然 还 不 能 确定 
就 是 这 样 。 这 个 类 是 这 样 定义 的 :允许 图 灵机 使 用 输入 规模 的 多 项 式 大 小 的 空间 ， 却 不 限制 使 
用 多 少时 间 。 起 初 将 要 区 分 带 多 项 式 空间 限制 的 确定 型 图 灵机 与 非 确定 型 图 灵机 所 接受 的 语言 ， 
但 是 很 快 将 要 看 到 这 两 个 语言 类 是 同一 个 类 。 

对 于 多 项 式 空间 存在 着 完全 问题 P， 这 意味 着 这 个 类 中 的 所 有 问题 都 在 多 项 式 时 间 内 归 约 到 
P。 因 此 ， 如 末 P 属 于 P 了 或 XP， 那 么 带 多 项 式 空 间 限 制 的 图 灵机 所 接受 的 所 有 语言 就 相应 地 属于 
P 或 NP。 我 们 将 要 提供 一 个 这 种 问题 的 例子 :“ 带 量词 的 布尔 公式 ”。 
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11.2.1 多 项 式 空间 图 灵机 


带 多 项 式 空间 限制 的 图 灵机 如 图 11-2 所 示 。 存 在 着 某 个 多 项 式 p(n)， 使 得 当 给 定 长 度 为 n 的 
输入 w 时 ， 这 台 图 灵机 从 不 访问 超过 p(n) 个 带 单元 。 根 据 定理 8.12， 可 以 假设 : 带 是 半 无 穷 的 ， 
并 且 图 灵机 在 输入 开始 处 从 不 向 左 移 。 


有 穷 控 制 


i 输入 w 一 一 
n 个 单元 


下 用 过 的 单元 
p(n) 个 单元 


图 11-2 使 用 多 项 式 空间 的 图 灵机 


定义 PS (多 项 式 空 间 ) 语言 类 包含 且 仅 包含 这 样 的 语言 ， 这 些 语言 都 是 带 多 项 式 空 间 限 制 
的 确定 型 图 灵机 M 所 接受 的 语言 L(M)。 同 样 定义 NPS ( 非 确定 型 多 项 式 空 间 ) 类 由 下 面 这 样 的 
语言 组 成 ， 这 些 语言 是 非 确 定型 的 带 多 项 式 空间 限制 的 图 灵机 M 所 接受 的 语言 L(M)。 显 然 25 CC 
NP5， 因 为 从 技术 上 说 ， 每 一 台 确 定型 图 灵机 也 是 非 确 定型 的 。 但 是 ， 本 节 将 要 证 明令 人 惊讶 的 
结果 : P5= NP5。® 





11.2.2 25 和 PS 与 前 面 定义 的 类 的 关系 


首先 ? CC 25 和 WP C WPs 的 关系 应 当 是 显然 的 。 原 因 在 于 ， 如 果 图 灵机 只 移动 多 项 式 步 
数 ， 那 它 就 不 会 使 用 超过 多 项 式 个 单元 ， 具体 地 说 ， 它 不 能 访问 超过 了 移动 步 数 加 一 的 单元 数 。 
一 旦 证 明了 25 = XP9， 将 要 看 到 事实 上 这 三 个 类 形成 包含 链 : 2 C WP C 25 。 

带 多 项 式 空间 限制 的 图 灵机 的 一 个 基本 性 质 是 : 这 些 图 灵机 在 必须 重复 某 个 ID 之 前 只 能 移 
动 指 数 步 数 。 我 们 需要 这 个 事实 来 证 明 关 于 25 的 其 他 有 趣事 实 ， 而 且 证 明 P25 只 包含 递归 语言 
( 即 具有 算法 的 语言 )。 注 意 ， 在 25 或 NPs 的 定义 中 ， 没 有 任何 地 方 要 求 图 灵机 停机 。 图 灵机 可 
能 死 循 环 ， 而 不 离开 带 上 一 段 多 项 式 大 小 的 区 域 。 


定理 11.3 如 果 M 是 带 多 项 式 空间 限制 的 图 灵机 (确定 型 或 非 确 定型 )，p(n) 是 多 项 式 空间 限 


日 ”在 关于 本 专题 的 其 他 著作 里 也 许 会 看 到 把 这 个 类 写成 PSBPACE。 不 管 怎样 ， 本 书 选择 采用 P25 记号 来 表示 在 确定 
型 〈 或 非 确定 型 ) 多 项 式 空 间 内 解决 的 问题 类 ， 因 为 一 旦 证 明 25 = zs 的 等 价 性 ， 本 书 将 放弃 使 用 XP5。 


者 全 


制 ， 那 么 存在 常数 c， 使 得 若 M 接 受 长 度 为 m 的 输入 wm， 则 M 就 在 cl+zm 步 移动 之 内 接受 。 

证 明 “基本 思想 是 : M 在 移动 超过 cl+mm 步 之 前 ， 必 须 重复 某 个 ID。 如 果 M 重 复 某 个 ID 然后 
接受 ， 那 就 必定 存在 更 短 的 导致 接受 的 ID 序列 ; 也 就 是 说 ， 如 果 a 上 BF BF y， 其 中 a 是 初始 
ID，/ 是 重复 ID，) 汪 接 受 ID， 那 么 w 上 8 上 y 就 是 更 短 的 导致 接受 的 ID 序列 。 

c 必 定 存 在 的 证 明 利 用 了 这 样 的 事实 ; 如 果 限 制图 灵机 使 用 的 空间 ;那么 就 限制 了 ID 数 。 具 
体 地 说 ， 设 是 M 的 带 符号 数 ， 设 s 是 M 的 状态 数 。 当 M 只 使 用 p(n) 个 带 单元 时 ， 不 同 ID 的 个 数 至 
多 是 sp(z)jzms 也 就 是 说 ， 可 以 从 s 种 状态 中 任 选 一 种 ， 把 带头 放 到 p(n) 个 带 位 置 中 任意 一 处 ， 使 
用 we% 种 带 符号 序列 中 任意 一 种 来 填充 p(n) 个 单元 。 

选择 c =s +t。 考 虑 (t+ 5)!+?9 的 二 项 式 展开 ， 即 


fitp® + (1 + p(n))st?® + 


注意 ， 第 二 项 至 少 不 小 于 sp(CD)zzm, 这 证 明 c1+? 至 少 等 于 M 的 可 能 ID 的 数目 。 完成 证 明 还 要 注意 : 
如 采 M 接 受 长 度 为 nz 的 w， 那 么 M 就 通过 无 重复 呈 的 移动 序列 来 这 样 做 。 因 此 M 通 过 长 度 不 超过 不 
同 ID 的 个 数 ( 即 c1+r?®9) 的 移动 序列 来 接受 。 


可 以 利用 定理 11.3 来 把 带 多 项 式 空 间 限 制 的 任何 图 灵机 转换 成 等 价 的 至 多 移动 指数 步 就 停机 
的 图 灵机 。 要 点 在 于 ， 由 于 知道 图 灵机 在 指数 移动 步 数 之 内 接受 ， 所 以 可 以 计数 图 灵机 已 经 移 
动 了 多 少 步 ， 如 果 图 灵机 移动 了 足够 步 数 还 不 接受 ， 那 么 就 促使 图 灵机 停机 。 


定理 11.4 ”如果 语 言 L 属 于 25 (对 应 非 确 定型 图 灵机 为 NP5)， 那 么 带 多 项 式 空 间 限制 的 确 
定型 (对 应 N25 为 非 确定 型 ) 图 灵机 接受 L， 并 且 对 于 某 个 多 项 式 q(n) 和 常数 c > 1， 这 台 图 灵机 
至 多 移动 cm 步 之 后 停机 。 

证 明 ”这 里 将 对 确定 型 图 灵机 证 明 这 个 命题 ;同样 的 证 明 适 用 于 非 确定 型 图 灵机 。 已 知 带 
多 项 式 空 间 限 制 z(o) 的 图 灵机 1 接受 上 。 根 据 定理 11.3， 如 果 Mi 接 受 w， 那 么 MI 在 至 多 cl+Pow 步 
之 内 接受 。 

设计 有 两 条 带 的 新 图 灵机 M2。 在 第 一 条 带 上 M; 模 拟 M1， 在 第 二 条 带 上 Ms 以 c 进 制 计数 直到 
Cc +7 为止 。 如 果 Mz 到 达 这 个 计数 ， 那 么 M2 就 停机 不 接受 。 因 此 MM 在 第 二 条 带 上 使 用 1 + p(wl) 
个 单元 。 假 设 了 Mi 使 用 不 超过 p(wl) 个 带 单 元 ， 所 以 M; 在 第 二 条 带 上 也 使 用 不 超过 p(wl) 个 单元 。 

如 有 果 把 Ms 转换 成 单 带 图 灵机 M3， 就 能 确信 在 长 度 为 n 的 任何 输入 上 Mi 使 用 不 超过 1 + p(n) 
个 带 单元 。 虽 然 M3 可 能 使 用 M2 运行 时 间 的 平方 时 间 ， 但 这 个 时 间 不 超过 O(c”")。9 因为 对 于 
茶 个 常数 4，M3 移 动 不 超过 dc”" 步 ， 所 以 可 选择 q(n) = 2p(n) + loged。 于 是 Ms 移动 至 多 co" 步 。 
因为 M2 必定 停机 ， 所 以 Ms 必定 停机 。 因 为 Mi 接受 L， 所 以 M; 和 M3 也 接受 LL。 因此 M3 满足 定理 
的 命题 。 口 


11.2.3 确定 型 多 项 式 空 间 与 非 确定 型 多 项 式 空 间 
因为 在 ?与 NP 之 间 的 比较 显得 如 此 困难 ， 所 以 在 25 与 NP5 之 间 的 同样 比较 却 轻 而 易 举 
日 事实 上 ， 从 定理 8.10 得 出 的 一 般 规律 并 不 是 可 以 做 出 的 最 强 断言 。 因 为 任何 带 都 仅仅 使 用 1+pCD) 个 单元 ， 所 以 


在 多 带 合 一 的 构造 中 ， 被 模拟 的 各 个 带头 相距 至 多 1+P(m) 个 单元 。 因 此 多 带 图 灵机 1M: 的 clzm 步 移动 可 以 在 
OWwC)crm) 步 之 内 被 模拟 ， 这 个 步 数 小 于 上 面 断言 的 O(czm) 步 。 
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(这 两 个 类 是 同一 个 语言 类 )， 这 就 令 人 惊讶 了 。 这 个 证 明 涉 及 到 用 带 多 项 式 空间 限制 O(p?(n)) 的 
确定 型 图 灵机 来 模拟 带 多 项 式 空间 限制 (p(n)) 的 非 确 定型 图 灵机 。 

证 明 的 核心 是 一 个 确定 型 的 递归 测试 : 非 确 定型 图 灵机 AN 能 否 在 至 多 m 步 之 内 从 IDI 移 动 到 
IDJ。 一 台 确 定型 图 灵机 D 系 统 地 试验 所 有 的 中 间 IDK， 以 便 验证 1 能 否 在 m/2 步 移动 内 变 成 K， 以 
及 K 能 否 在 m/2 步 移动 内 变 成 7。 也 就 是 说 ， 想 象 存 在 一 个 递归 函数 reach(1, J,m)， 这 个 函数 判定 
是 否 至 多 经 过 m 步 移动 就 有 I 上 J。 

把 D 的 带 当 作 堆栈 ， 在 其 中 存放 reach 的 递归 调用 参数 。 也 就 是 说 ，D 把 [1, J, m] 保 存在 一 个 
栈 帧 中 。reach 执 行 的 算法 的 框架 如 图 11-3 所 示 。 


BOOLEAN FUNCTION reach(I, J, m) 

TID， TI, J: INT, 页: 

BEGIN 
IF (m = = 1) THEN /* 基 础 */ BEGIN 
测试 是 否 I = = J 或 I 可 在 一 步 移动 后 变 成 J， 
RETURN 若是 ， 则 TRUE， 若 否 ， 则 FALSE， 
END; 


ELSE /#* 归 纳 部 分 x/ BEGIN 
FOR 每 个 可 能 的 ID K DO 
IF ( reach(I, K, m/2) AND reach(K, J, m/2) ) THEN 
RETURN TRUE ; 
RETURN FALSE, 
END; 
END; 





图 11-3 递归 函数 reach 测 试 一 个 人 DD 是否 在 指定 移动 步 数 之 内 变 成 另外 一 个 ID 


重要 的 是 注意 : 虽然 reach 有 两 次 自我 调用 ,但 这 些 调用 是 依次 进行 的 ， 因 此 一 次 只 有 一 个 调 
用 是 活动 的 。 也 就 是 说 ， 如 果 开 始 时 有 栈 帧 区 ,1,m]， 那 么 在 任何 时 刻 就 只 有 一 个 调用 [5; ,1m/2]， 
一 个 调用 [6,J3,m/ 利 ， 男 一 个 调用 纪 ,J4,m/8]， 依 此 类 推 ， 直 到 某 个 时 刻 第 三 个 参数 变 成 1 为 止 。 在 
那个 时 刻 ，reacpz 可 以 应 用 基础 步骤 而 不 再 需要 递归 调用 。 基 础 步骤 测试 是 否 7= /或 上 J， 如 果 其 
中 有 一 项 成 立 ， 就 返回 TRUE ， 如 果 两 者 都 不 成 立 ， 就 返回 FALSE。 图 11-4 提 示 当 给 定 初始 移动 计 
数 m 而 且 reach 的 活动 调用 尽量 多 时 ， 确 定型 图 灵机 D 的 堆栈 看 起 来 是 什么 样子 。 


图 11-4 通过 递归 调用 reach 来 模拟 NTM 的 DTM 的 带 


里 然 似 乎 有 可 能 多 次 调用 reach， 图 11-4 中 的 带 可 能 变 得 很 长 ， 但 是 将 要 证 明 不 可 能 变 得 
太 长 。 也 就 是 说 ， 如 果 从 移动 计数 mm 开始 ， 那 么 任何 时 刻 在 带 上 就 只 有 logzm 个 栈 帧 。 由 于 定 
理 11.4 保 证 NTM NN 不 能 移动 超过 cr" 步 ， 所 以 开始 时 mm 不 必 比 这 个 值 更 大 。 因 此 栈 帧 数 至 多 是 
log2c?”， 即 O(p(n))。 现 在 就 有 了 下 述 定理 证 明 背 后 的 要 点 。 


定理 11.5 【人 ( 萨 维 奇 定理 ) PS = WP5。 
证 明 显然 25 C WP5S ， 因为 从 技术 上 来 说 ， 每 台 确 定型 图 灵机 也 是 非 确定 型 图 灵机 。 因 此 


ww 


只 需 证 明 N25 C 25 ， 也 就 是 说 ， 如 果 对 于 某 个 多 项 式 p(n)， 带 空间 限制 p(n) 的 非 确 定型 图 灵机 
NN 接受 L， 那 么 对 于 另外 某 个 多 项 式 q(n)， 带 空间 限制 gq(n) 的 确定 型 图 灵机 D 接 受 L。 事 实 上 ,下 
面 将 要 证 明 可 以 选择 q(n) 为 具有 p(n) 平 方 的 阶 。 

首先 根据 定理 11.3 可 以 假设 : 如 果 NN 接 受 ， 那 么 对 于 某 个 常数 c<，N 在 ci! 中 步 之 内 接受 。 给 定 
长 度 为 n 的 输入 w，D 反 复 地 把 三 元 组 [1o, J; m] 保 存 到 带 上 ， 并 且 以 这 些 参数 调用 reach 来 发 现 N 对 
输入 w 做 什么 ， 其 中 : 

1. 1 是 N 在 输入 w 上 的 初始 ID。 

2. J 是 使 用 至 多 p(n) 个 带 单 元 的 任何 接受 ID， 使 用 一 条 草稿 带 ，D 系 统 地 枚 举 出 不 同 的 J。 

3.m = cl*rm, 

上 面 证 明 过 同一 时 刻 不 会 有 超过 logzm 个 递归 调用 ， 即 第 三 个 参数 为 m、m/2、m/4 等 一 直 降 
到 1 为 止 的 那些 调用 。 因 此 ， 在 堆栈 中 只 有 不 超过 
logzm 个 栈 帧 ， 这 个 值 是 OCD(n))。 

而 且 这 些 栈 帧 自身 占用 O(p(n)) 空 间 。 原 因 是 写 下 
两 个 ID 中 的 每 一 个 只 需 1 + p(n) 个 单元 ， 如 果 用 二 进 制 
写 m, 那 就 只 需 logzc!+? 中 个 单元 ， 即 OCp(n))。 因 此 整 
个 栈 帧 由 两 个 信和 一 个 整数 组 成 ， 占 用 O(n)) 空 间 。 

由 于 D 至 多 有 Op(n)) 个 栈 巾 ， 所 以 使 用 的 总 空间 
量 是 O(p*(n))。 如 果 p(n) 是 多 项 式 ， 那 么 这 个 空间 量 
也 是 多 项 式 ， 所 以 就 证 明 带 多 项 式 空 间 限 制 的 确定 





型 图 灵机 接受 L。 口 
总 结 一 下 ， 关 于 复杂 性 类 的 知识 可 以 推广 到 包含 
多 项 式 空间 类 。 完 整 的 示意 图 如 图 11-5 所 示 。 图 11-5 语言 类 之 间 的 已 知 关系 491 


11.3 对 25 完全 的 问题 
本 节 将 要 介绍 一 个 所 谓 “ 带 量词 的 布尔 公式 ”的 问题 ， 并 证 明 这 个 问题 对 24 是 完全 的 ， 
1 有 局 PS 完全 性 


如 果 : 

1.P 属 于 25。 

2. 所 有 25 中 的 语言 L 都 能 在 多 项 式 时 间 内 归 约 到 P。 
则 定义 问题 P 对 25 是 完全 的 (PS 完全 的 )。 注 意 ， 虽 然 正在 考虑 多 项 式 空间 而 非 时 间 ，, 但 PS 完 
全 性 的 要 求 却 类 似 于 NP 完全 性 的 要 求 : 归 约 必须 在 多 项 式 时 间 内 完成 。 原 因 在 于 需要 知道 ， 如 
末 证 明 某 个 PS 完全 问题 属于 P, 那么 ?=Ps， 并 且 如 果 某 个 PS 完全 问题 属于 NP ,那么 NP= 25。 
假如 只 要 求 归 约 属于 多 项 式 空间 ， 那 么 输出 规模 就 可 能 是 输入 规模 的 指数 ， 因 此 将 不 能 证 明 下 
列 定理 。 但 是 ， 由 于 只 限于 讨论 多 项 式 时 间 归 约 ， 所 以 就 得 出 了 所 需要 的 关系 式 。 


定理 11.6 假设 P 是 PS 完全 问题 。 那 么 : 
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a) 若 P 属 于 P,， 则 P= P25。 

b) 者 P 属 于 WP， 则 NP= 25。 

证 明 证明 a)。 对 于 25 中 的 任意 L， 已 知 存在 从 L 到 P 的 多 项 式 时 间 归 约 。 设 这 个 归 约 花费 
时 间 q(n)。 并 且 假 设 P 属 于 P， 因 此 P 有 多 项 式 时 间 算 法 ; 不 妨 设 这 个 算法 在 p(n) 时 间 内 运行 。 

给 定 串 w， 和 希望 测试 w% 是 否 属于 民 ， 可 以 利用 归 约 把 w 转 换 成 串 x, x 属 于 忆 当 且 仅 当 w 属 于 克 。 
因为 这 个 归 约 花费 时 间 g(w)， 所 以 串 x 不 能 比 g(w) 更 长 。 可 以 在 p(ozl) 时 间 内 测试 出 xz 是 否 属于 P， 
这 个 时 间 是 p(q(Iwl))， 这 是 Iwl 的 多 项 式 。 结 论 是 存在 L 的 多 项 式 时 间 算 法 。 

因此 25 中 的 每 一 个 语言 都 属于 了。 由 于 ?属于 B25 的 包含 关系 是 显然 的 ， 所 以 就 证 明了 ， 如 
琳 P 属 于 P， 那 么 了 = Ps 。(b) 的 证 明 是 非常 类 似 的 ， 其 中 P 属 于 Nr， 把 这 个 证 明 留 给 读者 。 ” 口 


11.3.2 市 量词 的 布尔 公式 


将 要 展示 一 个 对 25 完全 的 问题 P。 但 是 首先 需要 学 习 一 些 术 语 ， 利 用 这 些 术 语 来 定义 这 个 
所 谓 “ 帝 量词 的 布尔 公式 ”( 或 QBF) 的 问题 。 

大 致 说 来 ， 带 量词 的 布尔 公式 就 是 增加 了 Y (“所 有 ”) 和 3 (“存在 ”) 运算 符 的 布尔 表达 式 。 
表达 式 (V2)(E) 的 意思 是 ， 当 把 E 中 的 x 的 所 有 出 现 都 换 成 1 ( 真 ) 时 E 为 真 ， 并 且 当 把 x 的 所 有 出 现 
都 换 成 0 ( 假 ) 时 E 也 为 真 。 表 达 式 (3x)(E) 的 意思 是 : 要 么 当 把 x 的 所 有 出 现 都 换 成 1 ( 真 )》 时 E 为 
真 ， 要么 当 把 x 的 所 有 出 现 都 换 成 0 ( 假 ) 时 E 为 真 ， 要 么 在 两 种 情况 下 E 都 为 真 。 

为 了 简化 描述 ， 将 要 假设 : QBF 都 不 包含 同一 个 变 元 x 的 两 次 以 上 量化 (VYV 或 3)。 这 个 限制 
不 是 根本 性 的 ， 只 大 致 相当 于 不 允许 一 个 程序 中 的 两 个 不 同 函数 使 用 同样 的 局 部 变量 9 。 形 式 
上 ， 定 义 带 量词 的 布尔 公式 如 下 : 

1.0 ( 假 )、1 ( 真 ) 和 任何 变 元 都 是 QBF。 

2. 如 未 E 和 FF 者 是 QBF， 那 么 (E)、-"(E)、(E) 人 (F)、(E)V (F) 都 是 QBF， 分 别 表示 带 括号 的 E、 
E 且 否定 、E 和 F 的 AND、E 和 F 的 OR 等 。 根 据 通常 的 优先 级 规则 (NOT， 然 后 AND， 然 
后 OR (最 低 )) 可 以 删除 多 余 的 括号 。 还 将 倾向 于 使 用 “算术 ”风格 来 表示 AND 和 OR， 
其 中 把 AND 表 示 成 并 置 (无 运算 符 )， 把 OR 表示 成 + 。 也 就 是 说 ， 常 常用 (BE)( 下 代替 (加 

A 人 (CD)， 用 (BE) + (四 代替 (DB) V ()。 
如 霖 FF 是 不 含有 变 元 x 的 量化 的 QBF， 那 么 (Vx)(D 和 (3x)(E) 都 是 QBF。 并 且说 x 的 辖 域 是 E。 
直观 说 来 ，x 只 在 E 中 有 定义 ， 这 非常 像 是 程序 中 变量 的 作用 域 就 是 声明 这 个 变量 的 函数 。 
如 末 没 有 卜 义 ， 就 可 以 删除 环绕 E 的 括号 (而 不 是 环绕 量词 的 括号 ) 。 不 管 怎样 ， 为 了 避 
免 括 号 过 分 嵌 套 ， 将 把 连续 的 量词 一 一 比如 

(VA((Ay)(Vz) (2))) 
写成 只 有 一 对 括号 环绕 E， 即 (Vx)(3y)(Vz)(E)， 而 不 是 让 其 中 每 一 个 量词 都 有 一 对 括号 环 
绕 着 E。 


Uy 





例 11.7 这 里 是 QBF 的 一 个 例子 : 


名 ”在 程序 内 或 在 带 量词 的 布尔 公式 内 在 两 处 不 同 地 方 使 用 了 同一 个 变量 名 ， 总 是 可 以 重新 命名 其 中 一 个 。 有 于 
程序 来 说 ， 没 有 理由 去 避免 使 用 同一 个 局 部 名 ， 但 是 在 QBE 里 将 会 发 现 ， 假 设 没有 重用 ， 这 样 能 带 来 便利 。 


其 他 问题 类 了 97 





(VD(3y)CoJ + (VD + 2) OL) 


首先 把 变 元 x 和 y 用 AND 连 接 起 来 ， 然 后 应 用 量词 (3y) 来 构成 子 表达 式 (3y)(xy)。 类 似 地 ， 构 造 布 
尔 表 达 式 -x + z， 应 用 量词 (Vz) 来 构成 子 表达 式 (Vz)(mx + z)。 然 后 用 OR 把 这 两 个 表达 式 组 合 起 
来 ;不 需要 括号 ， 因 为 + (OR) 的 优先 级 最 低 。 最 后 把 (Vx) 量 词 应 用 到 这 个 表达 式 上 ， 产 生 上 
面 所 说 的 QBF。 四 


11.3.3 ， 带 量词 的 布尔 公式 的 求 值 


还 没有 形式 化 地 定义 什么 是 QBEF 的 意义 。 但 是 ， 如 果 把 Y 读 作 “ 所 有 ， 把 3 读 作 “存在 ， 
就 可 以 获得 直观 的 想法 。 上 面 的 QBF 断 言 : 对 于 所 有 的 x ( 即 x = 0 或 x = 1) ， 要 么 存在 7 使 得 xz 和 y 
都 为 真 ， 要么 对 于 所 有 的 z-，-x + z 为 真 。 这 个 命题 碰巧 为 真 。 为 了 和 弄 请 原因 ， 注 意 ， 如 采 x = 1， 
就 可 选择 y = 1 来 让 xy 为 真 。 如 果 x = 0， 则 对 于 z 的 两 种 值 ，~x + z 都 为 真 。 

如 果 变 元 x 属于 x 的 某 个 量词 的 辖 域 ， 就 说 x 的 使 用 是 约束 的 。 否则 ，x 的 出 现 是 自由 的 。 


例 11.8 ”在 式 (11-1) 的 QBF 中 ， 变 元 的 每 次 使 用 都 是 约束 的 ， 因 为 都 属于 该 变 元 的 量词 的 连 
域 。 比 如 ， 变 元 y 在 (3y)(xy) 中 量化 ， 辖 域 是 表达 式 xy。 因 此 y 在 那里 的 出 现 就 是 约束 的 。 在 区 中 x 
的 使 用 是 约束 的 ， 量 词 (VX) 的 辖 域 是 整个 表达 式 。 口 


不 带 自由 变 元 的 QBF 的 值 ， 或 者 是 0， 或 者 是 1 ( 即 分 别 为 真 或 假 )。 对 表达 式 长 度 n 进 行 归 
纳 ， 就 可 以 计算 出 这 样 的 QBF 的 值 。 
基础 : 如 果 表 达 式 长 度 为 1!1， 就 只 能 是 常数 0 或 1， 因 为 任何 变 元 都 是 自由 的 。 这 个 表达 式 的 
值 就 是 表达 式 本 身 。 
归纳 : 假设 给 定 一 个 表达 式 ， 这 个 表达 式 没 有 自由 变 元 ,长 度 n > 1， 并 且 对 于 长 度 更 短 的 
任何 表达 式 都 可 以 求 值 ， 只 要 这 些 表达 式 没 有 自由 变 元 。 这 样 的 QBF 可 以 具有 六 种 可 能 的 形式 : 
1. 表 达 式 形 如 (EZ)。 于 是 E 的 长 度 为 n 一 2， 可 以 求 出 E 的 值 ， 这 个 值 或 为 0 或 为 1。(E) 的 值 是 
同样 的 。 
2. 表达 式 形 如 mE。 于 是 E 的 长 度 为 n 一 1， 可 以 求 出 E 的 值 。 车 = 1， 则 -五 =0; 反之 亦 然 。 
3. 表达 式 形 如 EF。 于 是 E 和 F 的 长 度 都 小 于 n， 因 而 都 可 以 求 值 。 如 果 E 和 FF 的 值 都 为 1， 那 么 
EF 值 为 1; 如 果 两 者 中 有 一 个 是 0， 那 么 EF = 0。 
4. 表达 式 形 如 E + F。 于 是 E 和 F 的 长 度 都 小 于 n， 因 而 都 可 以 求 值 。 如 果 E 和 F 其 中 一 个 的 值 
为 1， 那 么 E+ FF 的 值 为 1， 如 果 两 个 都 为 0， 那 么 E+F=0。 
5. 如 果 表 达 式 形 如 (Vx)(E)， 那 么 就 先 把 x 的 所 有 出 现 都 换 成 0 来 得 出 表达 式 Eo。， 再 把 x 的 每 次 
出 现 都 换 成 1 来 得 出 表达 式 E1。 注 意 名 和 Ei 都 : 
(a) 没有 自由 变 元 ， 原 因 在 于 Eo 或 6 中 自由 变 元 的 任何 一 次 出 现 都 不 可 能 是 x， 因 此 假如 Eo 
或 B81/ 有 某 个 自由 变 元 的 话 ， 那 么 这 个 变 元 在 E 中 也 是 自由 的 。 
(b) 长 度 为 1 一 6， 因 此 长 度 小 于 n。 
对 Eo 和 E1 求 值 。 如 果 两 个 值 都 为 1， 那 么 (Vx)(E) 的 值 为 1， 否 则 (Vx)(E) 的 值 为 0。 注 意 ， 
这 条 规则 是 如 何 反 映 了 对 (Vz) 所 做 的 “对 于 所 有 的 x” 的 解释 。 
6. 如 果 这 个 表达 式 形 如 (3x)(E)， 那 么 就 照 (5) 中 那样 进行 ， 构 造 Eo 和 Ei 并 对 其 求 值 。 如 果 Eo 
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或 E1 中 至 少 有 一 个 值 为 1， 那 么 (3x)(E) 的 值 为 1， 否 则 (3x)(E) 的 值 为 0。 注 意 ， 这 条 规则 反 
映 了 对 (3x) 所 做 的 “存在 x” 的 解释 。 


例 11.9 对 式 (11-D) 中 的 QBF 求 值 。 这 个 QBF 形 如 (Vx)(E)， 所 以 必须 先 对 E 求 值 ，Eo 是 ; 
(3y)(0y) + (Vz)(—0 + 2) (11-2) 
这 个 表达 式 的 值 依 赖 于 用 OR 连接 的 两 个 表达 式 的 值 ，(3y)(0y) 和 (Vz)(-0 + z)， 如 果 这 两 个 表达 式 
其 中 一 个 值 为 1， 那 么 Eo 的 值 为 1。 为 了 对 (3y)(0y) 求 值 ， 必 须 在 子 表达 式 0y 中 代入 y = 0 和 y = 1， 
并 验证 其 中 至 少 在 一 种 情况 下 值 为 0。 但 是 0 和 0 和 0 人 1 都 值 为 0， 所 以 (3y)(0y) 值 为 0，s 
幸运 的 是 ，(3z)(-0 + z) 的 值 为 1， 把 z = 0 和 z = 1 分 别 代 入 就 可 以 看 出 来 。 由 于 -0 = 1， 所 以 
必须 求 值 的 两 个 表达 式 就 是 LV0 和 1 V1。 由 于 这 两 者 的 值 都 为 1!， 所 以 知道 (Vz)(-0 + z) 的 值 为 1。 
现在 结论 是 Eo。 (就 是 式 (11-2)) 的 值 为 1。 
还 必须 验证 El 的 值 也 为 1，Ei 是 通过 在 式 (11-1) 中 把 x= 1 代入 而 得 到 的 ， 
(3y)(1y) + (Vz)(-1 + 2) (11-3) 
表达 式 (3y)(1y) 的 值 为 1， 可 以 通过 把 y = 1 代入 来 看 出 来 。 因 此 EB，( 即 式 (11-3)) 的 值 为 1。 结 论 是 
整个 表达 式 ( 即 式 (11-1)) 的 值 为 1。 tm 


11.3.4 QBF 问 题 的 PS 完全 性 


现在 可 以 定义 带 量 词 的 布尔 公式 问题 ,给 定 一 个 无 自由 变 元 的 QBF， 其 值 是 否 为 1? 将 要 把 
这 个 问题 称 为 QBF， 同 时 继续 用 QBF 作 为 “ 带 量 词 的 布尔 公式 ”的 缩写 。 上 下 文 将 允许 避免 混 
乱 。 

下 面 将 要 证 明 QBF 问 题 对 于 25 是 完全 的 。 这 个 证 明 组 合 了 定理 10.9 和 定理 11.5 的 思想 ， 从 
定理 10.9 中 借用 这 样 的 想法 : 用 逻辑 变 元 来 表示 图 灵机 的 计算 ， 每 个 变 元 说 明 在 某 个 时 刻 某 个 单 
元 是 否 具 有 某 个 值 。 但 是 ， 如 果 正 在 处 理 的 是 多 项 式 时 间 ， 就 像 在 定理 10.9 中 那样 ， 那么 就 只 涉 
及 多 项 式 个 变 元 。 因此 就 能 够 在 多 项 式 时 间 内 生成 一 个 表达 式 ， 这 个 表达 式 说 TM 接 受 其 输入 。 
当 处 理 多 项 式 空间 限界 时 ， 计 算 中 的 ID 数量 可 能 是 输入 规模 的 指数 大 小 ， 所 以 就 不 能 在 多 项 式 
时 间 内 写 出 布尔 表达 式 来 说 明 计 算是 正确 的 。 幸 运 的 是 ， 给 出 了 一 种 表达 能 力 更 强 的 语言 来 表 
达 要 说 的 内 容 ， 量 词 的 使 用 使 得 可 以 写 出 多 项 式 长 度 的 QBF， 这 个 QBF 说 带 多 项 式 空间 限制 的 
图 灵机 接受 输入 。 

从 定理 11.5 中 借用 “递归 加 倍 ” 的 想法 ， 来 表达 一 个 ID 可 以 经 过 许多 步 移 动 变 成 另外 一 个 
ID 这 样 的 想法 。 也 就 是 说 ， 为 了 说 ID I 在 m 步 移动 之 内 变 成 ID J， 就 说 存在 某 个 ID K， 使 得 /在 
m/2 步 内 变 成 Kk 并 且 K 在 另外 m/2 步 内 变 成 J。 审 量 词 的 布尔 表达 式 的 语言 允许 用 多 项 式 长 度 的 表 
达 式 来 说 这 些 事情 ， 即 使 m 是 输入 长 度 的 指数 。 ; 

在 给 出 每 一 个 25 中 的 语言 都 多 项 式 时 间 归 约 到 QBF 的 证 明之 前 ; 还 需要 证 明 QBF 属 于 25。 
即使 是 PS 完全 性 证 明 中 的 这 个 部 分 也 需要 费 些 脑筋 ， 所 以 将 其 分 离 出 来 作为 单独 的 定理 。 


唱 注意 对 AND 和 OR 的 记号 的 灵活 使 用 ， 原 因 在 于 ， 不 能 对 由 0 和 1 组 成 的 表达 式 使 用 并 置 和 +， 和 否则 就 使 得 表达 
式 看 起 来 像 是 多 位 数 或 算术 加 法 。 希望 读者 能 够 接受 用 两 种 记号 来 代表 同样 的 逻辑 运算 符 。 


am 


定理 11.10 QBF 属 于 P25 。 

证 明 ”在 11.3.3 节 中 讨论 过 对 QBF F 求 值 的 递归 过 程 。 这 里 可 以 利用 一 个 堆栈 来 实现 这 个 算 
法 ， 可 以 把 堆栈 保存 在 图 灵机 的 带 上 ， 就 像 是 在 定理 11.5 的 证 明 中 做 过 的 那样 。 假 设 F 的 长 度 为 
n。 于 是 为 F 创 造 一 个 长 度 为 O(n) 的 记录 ， 这 个 记录 包括 F 本 身 以 及 关于 正在 处 理 F 的 哪 一 个 子 表 
达 式 的 记录 的 空间 。 在 F 可 能 具有 的 六 种 形式 中 举 两 个 例子 ， 将 清楚 解释 这 个 求 值 过 程 。 

1. 假设 F = Fi1+F;。 于 是 做 下 列 事情 : 

(a) 把 本 自身 的 记录 放 到 F 的 记录 右 方 的 记录 中 。 

(b) 递归 地 对 下 求 值 。 

(c) 如 果 下 的 值 为 1!， 就 返回 值 1 作为 F 的 值 。 

(d) 但 是 如 果 碧 的 值 为 0， 就 把 Fi 的 记录 换 成 f2 的 记录 并 且 递 归 地 对 F 求 值 。 

(e) 把 Fy 返 回 的 任何 值 都 作为 F 的 值 返 回 。 
.假设 F = (3x)(E)。 于 是 做 下 列 事情 : 

(a) 通过 把 x 的 每 个 出 现 都 代入 0 来 创造 表达 式 Eo， 并 且 在 fF 的 记录 右 方 放 上 Eo 本 身 的 记录 。 

(b) 递归 地 对 Eo 求 值 。 

(c) 如 果 Eo 的 值 为 1， 就 返回 1 作为 F 的 值 。 

(d) 但 是 如 有 果 Eo 的 值 为 0， 就 通过 把 E 中 的 x 代入 1 来 创造 Ei。 

(e) 把 Bo 的 记录 换 成 E1 的 记录 ， 并 递归 地 对 El 求 值 。 

(f 把 返回 的 任何 值 都 作为 F 的 值 返回 。 
我 们 将 把 类 似 的 步骤 留 给 读者 来 完成 ， 对 于 F 具 有 另外 四 种 可 能 的 形式 : FiF,、-E、(E) 或 
(Vx)(E) 的 情形 ， 这 些 步 又 将 对 F 求 值 。 基 础 情形 (其 中 F 是 个 常数 ) 要 求 返 回 该 常数 ,而 不 在 带 
上 创造 更 多 的 记录 。 

在 任何 情况 下 ， 注 意 ， 在 长 度 为 m 的 表达 式 的 记录 右 方 ， 将 是 长 度 小 于 m 的 表达 式 的 记录 。 
注意 ， 即 使 经 常 必须 对 两 个 不 同 的 子 表 达 式 求 值 ， 也 是 一 次 一 个 地 来 这 样 做 的 。 因 此 在 上 面 情 
形 (1) 中 ， 或 i 的 任何 子 表 达 式 的 记录 与 2 或 f 的 任何 子 表达 式 的 记录 决 不 会 同时 存在 。 对 于 
上 面 情形 (2) 中 的 如 和 Ei 来 说 ， 同 样 的 事实 也 是 真 的 。 

因此 ， 如 果 从 长 度 为 n 的 表达 式 开始 ， 那 么 在 堆栈 上 就 决 不 会 存在 超过 nn 个 记录 。 并 且 每 个 
记录 长 度 为 0(n)。 因 此 整 条 带 长 度 决 不 会 超过 O(n”)。 现 在 构造 了 接受 QBF 的 带 多 项 式 空 间 限 制 
的 图 灵机 ， 其 空间 限制 是 平方 的 。 注 意 ， 这 个 算法 花费 的 典型 时 间 是 n 的 指数 ， 所 以 这 个 算法 不 
是 多 项 式 时 间 算 法 。 口 


四 


现在 转 癌 讨论 从 25 中 的 任意 语言 L 到 这 个 问题 QBF 的 归 约 。 本 来 想 要 像 定理 10.9 中 所 做 过 的 
那样 ， 使 用 变 元 yi 来 断言 第 ;个 ID 中 第 / 企 位 置 是 4。 但 是 ， 因 为 有 指数 那么 多 个 ID ， 所 以 不 能 选 
一 个 长 度 为 n 的 输入 w， 并 且 正 好 在 n 的 多 项 式 时 间 之 内 写 下 这 些 变 元 。 取 而 代 之 的 是 ， 利 用 量词 
的 可 用 性 ， 以 便 用 同一 组 变 元 来 表示 许多 不 同 的 ID。 这 个 思想 出 现在 下 面 的 证 明 中 。 


定理 11.11 QBF 问 题 是 PS 完全 的 。 
证 明 设 L 属 于 P25， 确 定型 TM M 接 受 L，M 在 长 度 为 n 的 输入 上 至 多 使 用 p(n) 空 间 。 根 据 定理 
11.3， 可 知 存在 常数 c<， 使 得 如 果 MM 接 受 长 度 为 n 的 输入 ，M 就 在 c!1+?" 步 移动 之 内 接受 。 将 要 描 
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述 如 何在 多 项 式 时 间 内 从 长 度 为 n 的 输入 w 构 造 出 QBF E£，E 没 有 自由 变 元 ,并且 E 为 真 当 且 仅 当 
ww 属于 L(M)。 

在 写 E 的 过 程 中 ， 将 需要 引入 多 项 式 那 样 多 个 变 元 ID， 这 些 变 元 ID 是 变 元 ya 的 集合 ，yia 断 
言 : 所 表示 ID 的 第 个 位 置 有 符号 4。 人 对 许 j 从 0 到 p(n) 取 值 。 符 号 4 是 带 符号 或 M 的 状态 。 因 此 ， 
变 元 人 DD 中 的 命题 变 元 数 是 n 的 多 项 式 。 假 设 不 同 变 元 ID 中 的 命题 变 元 都 不 相同 ， 也 就 是 说 ， 没 有 
命题 变 元 属于 两 个 不 同 的 变 元 ID。 只 要 只 有 多 项 式 个 变 元 ID， 那 么 命题 变 元 的 总 数 就 是 多 项 式 
的 。 

为 方便 起 见 ， 引 入 记号 (3D， 其 中 1 是 变 元 ID。 这 个 量词 表示 (3x1)(3x2)…(3xw)， 其 中 xi, x2,…， 
xn 是 变 元 ID 1 中 的 所 有 命题 变 元 。 类 似 地 ，(VD 表 示 把 Vv 量词 应 用 到 1 中 所 有 的 命题 变 元 上 。 

从 w 构 造 出 的 QBF 形 如 

(II)(IWNSANAP) 


其 中 : 

1.m 和 7 分 别 是 表示 初始 ID 和 接受 卫 的 变 元 ID。 

2.5 是 说 “正确 开始 ”的 表达 式 ， 即 0 确实 是 M 的 带 有 输入 w 的 初始 ID。 

3.NN 是 说 “正确 移动 ”的 表达 式 ， 即 Mi 上 0 变 为 1。 

4.F 是 说 “正确 结束 ”的 表达 式 ， 即 4 是 接受 I 有 D，。 

注意 ， 虽 然 整个 表达 式 没 有 自由 变 元 ， 但 是 1 的 变 元 将 作为 自由 变 元 出 现在 8 中 , 大 的 变 元 
将 作为 目 由 变 元 出 现在 FE 中 ， 并 且 这 两 组 变 元 都 作为 自由 变 元 出 现在 NM 中 。 


正确 开始 


3 是 文字 的 逻辑 AND， 每 个 文字 是 1 的 变 元 之 一 。 如 果 带 有 输入 w 的 初始 ID 的 第 /个 位 置 是 4， 
那么 S 就 有 文字 yA， 如果 这 个 位 置 不 是 4， 那 么 S 就 有 文字 yw 。 也 就 是 说 ， 如 果 w = waz…aw,， 那 
么 yogos yla, yzo oo 以 及 对 于 1 = n+ 1,n + 2,…, p(n) 来 说 的 所 有 ys 就 都 出 现 ， 并 且 没 有 否定 出 
现 ， 而 的 所 有 其 他 变 元 都 是 否定 的 。 在 这 里 假设 qo 是 M 的 初始 状态 ，B 是 M 的 空格 。 


正确 结束 


为 了 让 7 是 接受 也, 7 必须 具有 接受 状态 。 因 此 把 写成 一 些 变 元 yn 的 逻辑 OR， 这 些 变 元 选 
目的 命题 变 元 ， 其 中 4 是 接受 状态 。 位 置 浊 任意 的 。 


下 一 步 移动 是 正确 的 


以 某 种 方式 来 递归 地 构造 表达 式 N， 使 得 考虑 的 移动 步 数 加 倍 ， 而 正在 构造 的 表达 式 只 增加 
O(p(n)) 个 符号 ， 并且 (更 重要 的 是 ) 写 出 这 个 表达 式 只 花费 O(p(n)) 时 间 。 为 了 方便 ， 采 用 缩写 
1= J (其 中 7 和 .都 是 变 元 ID) 来 表示 一 些 表达 式 的 逻辑 AND， 这 些 表达 式 说 IJ 的 每 对 对 应 变 元 
相等 。 也 就 是 说 ， 如 果 1 包 括 变 元 yi 并且/ 包括 变 元 z， 那 么 1 = J 就 是 表达 式 (yz + (yi)(z)) 的 
AND， 其 中 j 取 值 从 0 到 p(n)，A 是 任意 带 符号 或 M 的 状态 。 

现在 ， 对 于 i = 1, 2, 4, 8,… 来 构造 表达 式 N;(1, 中， 其 含义 是 : 经 过 不 超过 ;未 就 有 [上 在 这 
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些 表 达 式 中 ， 只 有 变 元 ID 7 和 v 的 命题 变 元 才 是 自由 的 ; 所 有 其 他 命题 变 元 都 是 约束 的 。 

基础 : 对 于 i = 1，Ni(1, 断言 要 么 1 = J， 要 么 [上 J。 上 面 刚刚 讨论 过 如 何 表达 条 件 5= J。 
对 于 条 件 T 上 J， 查 阅 在 定理 10.9 的 证 明 中 “下 一 步 移动 正确 ” 那 部 分 中 的 讨论 ， 在 那里 讨论 的 
是 完全 一 样 的 问题 ， 即 断言 一 个 ID 是 接着 前 一 个 了 PE 的 。 表 达 式 M 是 这 两 个 表达 式 的 逻辑 OR。 注 
意 ， 可 以 在 O(n)) 时 间 之 内 写 出 Ni。 

归纳 : 从 Ni 构造 Wi (1 四 。 在 “这 样 构造 Ny 行 不 通 ” 的 方 框 中 指出 ， 用 ;的 两 份 副本 来 构造 
Nz 这 样 的 直接 方法 不 符合 所 需要 的 时 间 和 空间 限制 。 写 出 Nz 的 正确 方法 是 : 在 表达 式 中 使 用 N: |49 
的 一 份 副本 ， 把 参数 (1, 有 和 (K, 力 都 传 给 同一 个 表达 式 。 也 就 是 说 ，N2i(1, 办 将 使 用 一 个 子 表达 式 
N(P,O)。 把 Ni 由 写成 断言 : 存在 ID 玉 ， 使 得 对 于 所 有 ID P 和 Q， 要 么 : 

1.(P,O)# 关 (有 并 且 (P,O) 关 (必要 么 

2.N(P,O) 为 真 。 
换 句 话说 ，Ni; K) 和 NA(K, J) 都 为 真 ， 除 此 之 外 不 关心 Ni(P, 0) 是 否 为 真 。 下 面 就 是 Na(1, 四) 的 
QBF: 


已 


N21, 7 = (KN)VP)VON NAP, OOVOOGCI=PAKE=G)A”KE=PAJT=C))) 


注意 可 以 在 以 下 时 间 之 内 写 出 Ns; 写 出 和 N; 所 花费 的 时 间 ， 外 加 O(n)) 的 其 他 工作 时 间 。 

为 了 完成 构造 NW， 必须 对 最 小 的 m 构 造 Nn， 这 样 的 m 是 2 的 短 ， 并 且 至 少 是 c'+?"w， 这 个 值 是 
图 灵机 M 在 接受 长 度 为 n 的 输入 之 前 可 以 移动 的 最 大 可 能 步 数 。 必 须 应 用 上 面 的 归纳 步骤 的 次 数 
是 log2(c!1+?")， 即 OC(p(n))。 因 为 每 次 使 用 归纳 步 又 都 花费 时 间 OCp(m))， 所 以 断定 可 以 在 O(p*(n)) 
时 间 之 内 构造 和 N。 


这 样 构造 Nz 行 不 通 


关于 从 Ni 构造 Wz， 第 一 个 本 能 反应 可 能 是 使 用 直截了当 的 分 治 方法 : 如 末 在 不 超过 2i 
步 之 内 7 上 J， 就 必定 存在 ID 玉 ， 使 得 在 不 超过 ; 砂 之 内 7 上 K 并 且 天 上 J。 但 是 如 果 把 表达 这 


个 想法 的 公式 写 下 来 ， 比 如 Nz; WwW, ]) = (3K)OV (LK) 信 Ni(K, 四 ))， 那 么 就 一 边 加 倍 i， 一 边 加 
倍 公式 的 长 度 。 因 为 必须 是 n 的 指数 才能 表达 M 的 所 有 可 能 的 计算 ， 所 以 将 要 花费 太 长 时 
间 来 写 TN，N 将 具有 指数 长 度 。 





定理 11.11 的 证 明 的 总 结 
现在 已 经 证 明了 如 何在 wl 的 多 项 式 时 间 之 内 把 输入 w 变 换 成 QBF 
(I) SANAR) 


还 证 明了 为 什么 表达 式 $, N 和 FF 中 每 一 个 为 真 ， 当 且 仅 当 这 些 公 式 的 自由 变 元 表示 ID fm 和 1， 这 两 
个 ID 分 别 是 M 在 输入 w 上 计算 的 初始 ID 和 接受 ID， 并 且 m 上 4。 也 就 是 说 ， 这 个 QBF 值 为 1!1， 当 且 
仅 当 M 接 受 w。 口 


11.3.5 习题 
习题 11.3.1 通过 处 理 以 下 情形 完成 定理 11.10 的 证 明 : 


342 第 11 章 


a) F = hi 

b) F = (VO(E). 

cy PER(E). 

d) F= (BE). z 

#!! 习题 11.3.2 证 明 下 述 问题 是 PS 完全 的 : 给 定 正则 表达 式 E，E 是 否 等 价 于 3”? 其 中 > 是 在 E 
中 出 现 的 符号 的 集合 。 提 示 : 不 要 试图 把 QBF 归 约 到 这 个 问题 ,更 容易 的 做 法 是 证 明 任 意 的 ?5 
中 的 语言 都 可 以 归 约 到 这 个 问题 。 对 于 每 个 带 多 项 式 空间 限制 的 图 灵机 ， 证明 如 何在 多 项 式 时 
OA ,ms, 这 些 串 不 是 导致 接受 
的 M 的 ID 序列 。 

!! 习题 11.3.3 。 香农 开关 游戏 如 下 所 述 。 给 定 一 个 带 有 两 个 终端 顶点 s 和 1 的 图 G。 有 两 个 选手 
可 以 称 为 SHORT 和 CUT。SHORT 先 走 ， 每 个 选手 轮流 选择 除 s 和 之 外 的 一 个 G 顶 点 ， 这 个 顶点 
在 后 面 的 游戏 中 就 属于 这 个 选手 。SHORT 获 胜 是 通过 选择 一 组 顶点 ， 加 上 s 和 如 形 成 C 中 从 s 开 | 
的 一 条 路 径 。CUT 获 胜 的 条 件 是 所 顶点 都 被 挑选 完毕 ， 而 SHORT 还 没有 选 出 从 s 到 ;的 路 径 、 证 
明 下 述 问题 是 PS 完全 的 : 给 定 G, 无 论 CUT 做 出 什么 选择 ，SHORT 能 否 必 胜 ? 


11.4 基于 随机 化 的 语言 


现在 把 注意 力 转向 用 下 列 图 灵机 定义 的 两 个 语言 类 ， 这 些 图 灵机 有 能 力 在 计算 中 使 用 随机 
数 。 读 者 可 能 熟悉 用 普通 程序 设计 语言 编写 的 一 些 算法 ， 这 些 算 法 为 了 某 种 有 用 的 目的 而 使 用 
随机 数 发 生 器 。 从 技术 上 说 ,函数 rand ( ) 或 具有 类 似 名 称 的 函数 返回 似乎 “随机 ”或 不 可 预测 
的 数 ， 虽 然 非 常 难以 看 出 所 产生 数 序列 中 的 “模式 ”， 但 是 实际 上 这 种 函数 执行 了 可 以 被 模拟 的 
特殊 算法 。 这 种 函数 的 一 个 简单 例子 (在 实际 中 不 使 用 ) 可 能 是 这 样 的 过 程 ， 取 出 序列 中 的 前 
一 个 整数 ， 把 这 个 整数 平方 ， 取 出 乘积 中 间 的 那些 位 。 使 用 复杂 的 机 械 过 程 (比如 这 里 的 这 个 ) 
产生 的 数 被 称 为 伪 随 机 数 。 

在 本 节 里 将 要 定义 为 在 算法 中 产生 随机 数 和 利用 随机 数 而 建立 模型 的 这 种 类 型 的 狼 灵 机 
然后 定义 两 个 语言 类 RP 和 2ZPP ， 这 两 个 类 以 不 同 的 方式 来 利用 随机 性 和 多 项 式 时 间 限 制 。 有 趣 
的 是 ， 虽 然 这 些 类 似乎 不 包含 除 2 以 外 的 东西 ， 但 是 这 些 类 与 2 的 差别 是 重要 的 。 具 体 地 ， 在 
11.5 节 将 看 到 为 什么 关于 计算 机 安全 的 某 些 最 基本 的 问题 ， 其 实 就 是 关于 这 些 类 与 2 和 Xz 的 关 
系 问题 。 


11.4.1 快速 排序 ， 随 机 算法 举例 


读者 可 能 熟悉 所 谓 “快速 排序 ”的 排序 算法 。 这 个 算法 的 基本 内 容 如 下 。 给 定 有 待 排序 的 
元 素 表 co, qa2,…, ar， 挑选 一 个 元 素 ， 比 方 说 ca, ， 把 表 分 成 不 小 于 w 的 元 素 和 大 于 ai 的 元 素 。 挑 先 
的 这 个 元 素 称 为 枢 轴 (pivot) 。 如 果 小 心地 表示 数据 ， 就 可 以 在 O(n) 时 间 内 把 长 度 为 n 的 一 个 表 
分 成 总 长 度 为 的 两 个 表 。 而 且 可 以 独立 地 给 低 元 素 (不 大 于 枢 轴 的 ) 和 高 元 素 (大 于 枢 轴 的 ) 
迎 归 地 排序 ， 结 果 将 是 所 有 n 个 元 素 的 排序 表 。 

如 霖 运气 好 ， 那 么 事实 上 枢 轴 将 是 排序 表 中 间 的 那个 数 ， 所 以 两 个 子 表 和 名 自 大 约 长 W/3。 如 
朱 在 每 个 递归 阶段 都 运气 好 ， 那 么 在 大 约 logx 层 递归 之 后 这 个 表 的 长 度 就 是 1， 并 且 这 些 表 已 经 
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排序 。 因 此 ， 总 工作 量 将 是 O(log n) 层 ， 每 层 需 要 On) 工作 量 ， 或 者 总 共 是 O(n log nn)。 

但 是 可 能 运气 不 好 。 例 如 ， 如 果 开 始 时 这 个 表 碰巧 排序 过 ， 那 么 挑选 每 个 表 的 头 一 个 元 素 ， 
将 把 这 个 表 分 成 : 二 个 元 素 属 于 低 子 表 ， 所 有 其 余 元 素 属于 高 子 表 。 如 果真 是 这 样 的 ， 则 快速 
排序 的 执行 就 非常 像 是 选择 排序 ,排序 n 个 元 素 所 花费 的 时 间 与 避 成 比例 。 

因此 快速 排序 的 良好 实现 ， 不 是 机 械 地 把 表 中 任何 特殊 位 置 选 为 枢 轴 , -而 是 从 表 中 所 有 元 
素 中 随机 地 选择 枢 轴 。 也 就 是 说 ，n 个 元 素 每 个 都 有 1/n 概 率 被 选 为 枢 轴 。 虽 然 这 里 将 不 证 明 这 
个 断言 8 ,但 是 事实 上 这 种 随机 化 快速 排序 的 期 望 运行 时 间 是 O(n log n)。 不 过 由 于 在 极 微小 的 
机 会 下 枢 轴 选择 会 选取 最 大 或 最 小 的 那个 元 素 ， 快 速 排序 的 最 坏 运 行 时 间 仍 然 是 CUz)。 但 是 快 
速 排序 仍然 是 许多 应 用 中 的 首选 方法 (比如 用 在 UNIX 的 排序 命令 中 )， 因 为 与 其 他 方法 相 比 ， 
其 至 与 在 最 坏 情 况 下 是 O(n log n) 的 方法 相 比 ， 快 速 排 序 的 期 望 运行 时 间 确 实 相 当 好 。 


11.4.2 随机 化 的 图 灵机 模型 


为 了 抽象 地 表示 图 灵机 做 随机 选择 的 能 力 ， 这 种 图 灵机 非常 类 似 于 一 次 或 多 次 调用 随机 数 
产生 器 的 程序 ， 将 要 使 用 如 图 11-6 所 示 的 多 


带 图 灵机 的 变 体 。 如 同 多 带 图 灵机 的 惯例 那 让 
样 ， 第 一 条 带 记录 输入 。 第 二 条 带 开头 的 单 


元 中 也 是 非 空格 。 事 实 上 从 原则 士 说 ， 整 条 


带 上 都 覆盖 着 0 和 1， 每 一 个 都 是 独立 地 和 随 

机 地 选择 的 ，1/2 概 率 为 0， 以 同样 概率 为 1。 

第 二 条 带 将 被 称 为 随机 带 。 第 三 条 带 和 后 面 | tif 斩 庆 总 卫 来 A 识 M2 加 
TE 


的 带 (假如 用 到 的 话 ) 开始 都 是 空白 带 ， 并 
且 被 图 灵机 在 需要 时 用 作 “ 草 稿 带 "。 这 种 ”随机 位 。 00101000101001000010061111 … 
图 灵机 模型 被 称 为 随机 化 图 灵机 。 

把 随机 化 图 灵机 初始 化 为 用 随机 的 0 和 1 。 草稿 带 
去 覆盖 一 条 无 穷 带 ， 由 于 这 样 的 想像 可 能 不 
太 现实 ， 所 以 这 种 图 灵机 的 等 价 想像 图 就 是 
第 二 条 带 开始 时 是 空白 带 。 但 是 ， 当 第 二 个 带头 正在 扫描 一 个 空格 时 ,就 发 生 一 次 内 部 “ 抛 硬 
币 "， 随 机 化 图 灵机 立即 在 扫描 的 带 单元 上 写 下 0 或 1， 并 且 永 远离 开 那里 不 再 改变 。 通 过 这 种 
方式 ， 在 启动 随机 化 图 灵机 之 前 ， 不 存在 任何 工作 (当然 不 存在 无 穷 的 工作 ) 。 但 是 第 二 条 带 
似乎 覆盖 着 随机 的 0 和 1， 因 为 随机 化 图 灵机 的 第 二 个 带头 实际 上 读 到 哪里 ， 这 些 随机 位 就 出 现 
在 哪里 。 


图 11-6 有 人 能力 使 用 随机 地 “产生 的 ” 数 的 图 灵机 


例 11.12， 可 以 在 随机 化 图 灵机 土 实现 随机 化 版 本 的 快速 排序 。 重 要 步骤 是 选取 子 表 的 递归 
过 程 ， 假 设 子 表 是 连续 地 存放 在 输入 带 上 ,在 两 端 用 标记 来 指明 子 表 的 范围 ， 随 机 地 挑选 枢 轴 ， 
把 子 表 分 成 低 的 和 高 的 子 子 表 。 随 机 化 图 灵机 工作 方式 如 下 : 


”对 快速 排序 期 望 运行 时 间 的 分 析 和 证 明 ， 可 以 在 D.E,Knuth 的 《The Art of Computer Programming, Vol. III: 
Sorting and Searching》 (Addison-Wesley，1973) 一 书 中 找到 。 
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AR ww ww 
1. 假设 待 分 的 子 表 长 度 为 m。 使 用 第 二 条 带 上 大 约 Odog m) 个 新 随机 位 来 挑选 一 个 在 1 与 m 之 

间 的 随机 数 ， 子 表 的 第 mm 个 元 素 成 为 枢 轴 。 注 意 ， 也 许 不 能 以 绝对 相等 的 概率 来 选择 1 到 

1 之 间 的 每 一 个 数 ， 因 为 庆 可 能 不 是 2 的 需 。 但 是 如 果 从 带 2 取 出 比方 说 [2logzm] 位 ,把 这 

竺 位 当 作 在 0 到 大 约 m? 范 围 内 的 一 个 数 ， 取 这 个 数 除 以 m 的 余数 加 上 一 ， 就 将 以 足够 接近 

lm 的 概率 来 得 出 在 1 到 m 之 间 的 所 有 数 ， 使 得 快速 排序 正常 地 工作 。 

把 枢 轴 写 在 带 3 上 。 

扫描 在 带 1 上 描绘 的 子 表 ， 把 那些 不 大 于 枢 轴 的 元 素 都 复制 到 带 4 去 ， 

:再 次 扫描 在 带 1 上 的 子 表 ， 把 那些 大 于 枢 轴 的 元 素 都 复制 到 带 5 去 。 

先 把 带 4、 后 把 带 5 复制 到 带 1 的 空间 去 ， 这 个 空间 过 去 记录 过 所 描绘 的 子 表 。 在 两 个 子 表 

之 间 放 一 个 记号 ; 

. 如 采 子 表 其 中 之 一 或 两 者 都 有 多 于 一 个 元 素 ， 就 用 同样 的 算法 来 递归 地 给 它们 排序 。 

注意 ， 即 使 计算 装置 是 多 带 图 灵机 而 不 是 常规 计算 机 ， 快速 排序 的 这 个 实现 也 花费 O(n log n) 时 

间 。 但 是 这 个 例子 的 要 点 不 是 运行 时 间 ， 而 古 在 第 二 条 带 上 使 用 随机 位 来 促成 图 灵机 的 随机 行 

为 。 口 


11.4.3 随机 化 图 灵机 的 语言 


每 一 台 图 灵机 (或 者 FA 或 PDA) 都 接受 某 个 语言 ， 即 使 这 个 语言 是 空 集合 或 输入 字母 表 上 
所 有 串 的 集合 ， 对 这 种 情形 也 是 习以为常 的 。 当 涉及 随机 化 图 灵机 时 ， 需 要 更 仔细 地 规定 图 灵 
负 接 受 输入 这 意味 着 什么 ， 而 且 有 可 能 是 随机 化 图 灵机 根本 不 接受 任何 语言 。 问 题 在 于 ， 当 考 
谨 随 机 化 图 灵机 W 做 什么 来 响应 输入 w 时 ， 需 要 根据 随机 带 上 所 有 可 能 的 内 容 来 考虑 M。 完 全 有 
可 能 是 W 对 茶 些 随机 串 接受 ， 而 对 其 他 随机 串 拒绝 ; 事实 上 如 果 随 机 化 图 灵机 比 确定 型 图 灵机 
更 有 效率 地 做 任何 事情 ,那么 随机 带 的 不 同 内容 导 致 不 同 的 重 为 就 是 关键 所 在 ，e 

哎 像 常规 计算 机 那样 ， 如 果 把 随机 化 图 灵机 进入 终结 状态 当 作 是 接受 ， 那 么 随机 化 图 灵机 
的 每 个 输入 都 有 某 个 接受 概率 ， 这 个 接受 概率 就 是 随机 带 可 能 导致 接受 的 内 容 所 占 的 比例 ， 由 
于 有 无 穷 多 种 可 能 的 带 内 容 ， 所 以 必须 稍微 仔细 地 计算 这 个 概率 。 然 而 ， 任 何 导 致 接受 的 移动 
序列 都 只 考虑 随机 带 的 有 穷 部 分 ， 所 以 如 果 m 是 随机 带 的 单元 数 ， 这 些 单元 都 已 被 扫描 过 ， 而 日 
至 少 影响 过 M 的 一 步 移动 ， 那 么 在 这 些 单元 里 看 到 的 任何 东西 都 以 等 于 2-" 的 有 穷 概 率 来 发 生 ， 
下 一 个 例子 将 要 解释 在 极端 简单 情形 之 下 的 这 种 计算 。 


例 11.13 随机 化 图 灵机 M 具 有 如 图 11-7 所 示 的 转移 函数 。 M 只 用 一 条 输入 带 和 一 条 随机 带 。 
MM 以 非常 简单 的 方式 来 运行 ， 从 不 改变 任何 带 上 的 符号 ， 带头 只 向 右 移 (方向 R) 或 保持 静止 
(方向 8)。 虽 然 没 有 定义 随机 化 图 灵机 移动 的 形式 化 概念 ， 但 是 图 11-7 中 的 各 项 应 当 易于 理解 ， 
每 行 对 应 于 一 个 状态 ， 每 列 对 应 于 一 对 符号 XY， 其 中 X 是 在 输入 带 上 被 扫描 的 符号 ，Y 是 在 随机 
汕 上 被 扫描 的 符号 。 表 中 gUVDE 项 的 意思 是 : 图 灵机 进入 状态 g. 在 输入 带 上 写 U， 在 随机 带 上 


WmD 


Cn 


写 V， 输 入 带头 沿 方向 D 移 动 ， 随 机 带头 沿 方向 E 移 动 。 


日 ”读者 应 当知 道 ， 例 11.12 所 描述 的 随机 化 图 灵机 不 是 识别 语言 的 图 灵机 。 更 确切 地 说 ， 这 个 图 灵机 在 输入 上 完 
成 一 个 变换 ， 这 个 变换 的 运行 时 间 (而 不 是 输出 ) 依赖 于 在 随机 带 上 曾 有 过 什么 内 容 。 
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a00RS ga01l1SR gq2l0RS gqg3l1l1SR 





gl | q00RS qaB0OSS 
gq2 gq210RS qaB0OSS 
d3 gsa00RR gal1RR q4B0OSS qaB1SS 


*Gg4 


图 11-7 随机 化 图 灵机 的 转移 函数 


这 里 总 结 一 下 在 0 和 1 组 成 的 输入 串 w_ 上 WM 如 何 运行 。 在 初始 状态 go 下 ，M 考 虑 第 一 个 随机 位 ， 
根据 这 个 随机 位 是 0 还 是 1 来 完成 关于 w 的 两 种 测试 中 的 一 种 。 

如 末 这 个 随机 位 是 90， 那么 M 测 试 w 是 否 只 包含 一 种 符号 (0 或 1) 。 在 这 种 情况 下 ，WM 不 考虑 
更 多 的 随机 位 ， 而 是 保持 第 二 个 带头 静止 。 如 果 w 的 第 一 位 是 0?， 那 么 M 进 入 状态 q!。 在 qi 状态 下 
M 在 0 上 疝 右 移动 ， 但 看 到 1 就 死机 。 如 果 M 在 qi 状态 下 到 达 输 入 带 的 第 一 个 空格 ， 就 进入 qs 状态 ， 
这 是 接受 状态 。 类 似 地 ， 如 果 w 的 第 一 位 是 1 并 且 第 一 个 随机 位 是 90， 那 么 M 进 入 状态 q;， 在 qs 状 
态 下 MM 验证 是 否 w 的 所 有 其 他 位 都 是 1， 如 果 是 就 接受 。 

现在 芳 谍 如 采 第 一 个 随机 位 是 1， 那 么 M 做 什么 。M 比 较 w 和 第 二 位 以 后 的 随机 位 ， 仅 当 这 
些 位 相同 时 才 接 受 。 因 此 在 go 状态 下 在 第 二 条 带 上 扫描 1，M 进 入 4 状态 。 注 意 ， 当 这 样 做 时 ， 
M 把 随机 带头 加 右 移 ， 所 以 M 看 到 新 的 随机 位 ， 同 时 保持 输入 带头 静止 ， 从 而 所 有 w 都 将 与 随机 
位 比较 。 在 9 状态 下 WM 匹 配 这 两 条 带 ， 把 两 条 带头 都 向 右 移 。 如 果 M 在 某 点 发 现 不 匹配 ， 就 死机 
不 接受 ， 而 如 果 M 到 达 输 入 带 上 的 空格 ， 就 接受 。 

现在 计算 茶 些 输入 的 接受 概率 。 首 先 考 虑 均匀 输入 ， 即 只 包括 一 种 符号 的 输入 ， 比 如 0:， 对 
于 某 个 ;> 1。 以 1/2 概 率 第 一 个 随机 位 将 是 0， 如 果 是 这 样 ， 那 么 均匀 性 测试 将 成 功 ， 确 实 接受 0/。 
但 是 ， 同 样 以 1/2 概 率 ， 第 一 个 随机 位 是 1。 在 这 种 情况 下 接受 0， 当 且 仅 当 从 第 2 个 到 第 ; + 1 个 
随机 位 都 是 0。 这 个 事件 发 生 的 概率 是 2 一 。 因 此 ， 接 受 0% 的 总 概率 是 


现在 考虑 非 均 匀 和 输入 w， 即 既 有 0 又 有 1 的 输入 ， 比 方 说 00101。 如 果 第 一 个 随机 位 是 0， 那 么 
决 不 会 接受 这 个 输入 。 如 果 第 一 个 随机 位 是 1， 那 么 这 个 输入 的 接受 概率 是 2-:， 其 中 i 是 输入 长 
度 。 因 此 长 度 为 ;的 非 均匀 输入 的 总 接受 概率 是 2 “+*D2。 例 如 ，00101 的 接受 概率 是 1/64。 口 


结论 是 可 以 计算 任何 给 定 随 机 化 图 灵机 对 任何 给 定 串 的 接受 概率 。 这 个 串 是 否 属于 这 个 语 
言 依赖 于 如 何 定义 随机 化 图 灵机 语言 的 “成 员 性 ”。 下 一 节 将 给 出 两 种 不 同 的 接受 定义 ， 每 二 种 
定义 导致 一 种 不 同 的 语言 类 。 

11.4.4 RP 类 

所 谓 RP (表示 “随机 多 项 式 ”) 的 第 一 个 语言 类 的 实质 是 : 要 属于 RP， 语 言 L 必 须 被 随机 
化 图 灵机 M 在 下 列 意义 下 接受 : 

1. 如 琳 w 不 属于 L， 那 么 M 接 受 w 的 概率 是 0。 

2. 如 有 果 w 属 于 L， 那 么 M 接 受 w 的 概率 至 少 是 1/2。 


3. 存 在 多 项 式 T(n)， 使 得 如 果 输 入 w 长 度 为 x:， 那 么 无 论 随机 带 的 内 容 是 什么 ;，M 的 所 有 运行 
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都 在 至 多 7T(n) 步 后 停机 :。 


非 确 定性 与 随机 性 


在 随机 化 图 灵机 与 非 确定 型 图 灵机 之 间 存在 着 一 些 表面 上 的 相似 之 处 。 可 以 设想 非 确 
定型 图 灵机 的 非 确定 性 选择 受到 一 条 有 随机 位 的 带 的 控制 ， 每 一 次 当 非 确定 型 图 灵机 选择 


移动 时 ， 这 个 图 灵机 就 咨询 随机 带 ， 并 以 相等 的 概率 从 各 种 选择 中 挑选 一 种 。 但 是 ， 如 果 
以 这 样 的 方式 来 解释 非 确定 型 图 灵机 ， 那 么 接受 规则 就 与 ?? 的 规则 有 所 不 同 。 实 际 上 ， 
如 采 输 入 的 接受 概率 是 0， 就 拒绝 这 个 输入 ， 如 果 输 入 的 接受 概率 是 大 于 0 的 任意 值 ， 无 论 
多 么 小 ， 就 接受 这 个 输入 。 





往 意 , RP 的 这 个 定义 提 及 两 个 独立 事项 。 第 (1) 点 和 第 (2) 点 定义 了 特殊 类 型 的 随机 化 图 灵机 ， 
这 种 图 灵机 有 时 称 为 蒙特 卡 洛 (Monte-Carlo) 算法 。 也 束 是 说 ,不 考虑 运行 时 间 ， 如 果 要 么 
以 0 概率 接受 ， 要 么 以 至 少 1/2 概 率 接受 ， 就 可 以 说 这 种 图 灵机 是 “蒙特 . 卡 洛 ” 的 。 第 (3) 点 仅 
仅 提 及 运行 时 间 ， 这 一 点 与 图 灵机 是 否 是 “蒙特 : 卡 洛 ”的 是 不 相关 的 。 


” 例 11.14 考虑 例 11.13 中 的 随机 化 图 灵机 。 这 个 图 灵机 确实 满足 条 件 (3)， 因 为 无 论 随 机 带 的 
内 容 是 什么 ， 其 运行 时 间 都 是 O(n)。 但 是 在 RP 定义 所 要 求 的 意义 下 ， 这 台 图 灵机 根本 不 接受 任 
何 语言 。 原 因 在 于 ， 虽 然 至 少 以 1/2 概 率 接受 像 000 这 样 的 均匀 输入 ， 因 此 满足 第 (2) 点 ， 但 是 存 
在 其 他 输入 ( 像 001) 是 以 既 不 是 0 又 不 是 至 少 1/2 的 概率 来 接受 的 ; 例如 以 1/16 概 率 接受 001。 口 


例 11.15，- 非 形式 化 地 描述 一 台 随 机 化 图 灵机 ， 这 人 台 图 灵机 既是 多 项 式 时 间 的 又 是 蒙特 . 卡 
洛 的 ， 因 此 接受 2 语言 。 将 把 输入 解释 成 图 ， 问 题 是 图 是 否 有 三 角形 ， 也 就 是 说 ， 三 个 顶点 中 
任何 一 对 顶点 有 边 连接 。 带 三 角形 的 输入 都 属于 这 个 语言 ， 其 他 输入 都 不 属于 。 

这 个 蒙特 . 卡 洛 算法 将 反复 地 随机 挑选 一 条 边 (x,y)， 而 且 还 随机 地 挑选 x 和 y 以 外 的 顶点 z。 
每 个 选择 都 是 考虑 了 随机 带 上 某 些 新 的 随机 位 而 确定 的 。 对 于 选择 的 每 个 +-、y 和 z， 这 台 图 灵机 
测试 输入 是 否 带 有 边 (x,z) 和 (Gy,z)， 如 果 是 ， 就 宣布 输入 图 带 有 三 角形 。 

总 共 进 行 k 次 选择 ， 每 次 选择 一 条 边 和 一 个 顶点 ， 这 台 图 灵机 接受 ， 当 且 仅 当 证 实 其 中 一 次 
是 三 角形 ， 如 果 都 没有 证 实 ， 就 放弃 且 不 接受 。 如 果 这 个 图 没有 三 角形 ， 就 不 可 能 证 实在 这 k 次 
选择 中 其 中 一 次 是 三 角形 ， 所 以 符合 RP 定义 中 的 条 件 (1); 如 果 输 入 不 属于 语言 ， 那 么 接受 概率 
就 是 0。 \ 
假设 这 个 图 有 n 个 顶点 和 e 条 边 。 如 果 这 个 图 至 少 有 一 个 三 角形 ， 那 么 在 任何 三 次 试验 中 这 


三 个 顶点 将 被 选中 的 概率 就 是 G(s): 也 就 是 说 ，e 条 边 之 中 有 三 条 边 属于 这 个 三 角形 ， 如 


霖 选中 这 三 条 边 之 中 的 任何 一 条 边 ,那么 也 选中 第 三 个 顶点 的 概率 就 是 1/(n 一 2)。 这 个 概率 不 大 ， 
但 是 试验 重复 了 k 次 。 这 k 次 试验 至 少 有 一 次 产生 三 角形 的 概率 是 : 


k 


3 
la 7 
有 一 种 常用 的 近似 公式 说 对 于 小 的 x, (1 一 x 近似 地 是 e 眉 ， 其 中 e = 2.718:… 是 自然 对 数 的 底 


, 病 国 本 ww 


数 。 因 此 ， 如 果 选 择 # 使 得 (比如 ) kx = 1， 那 么 ee 就 将 明显 地 小 于 1/2 而 1 二 ee 就 将 明显 地 
大 于 1/2， 更 准确 地 说 大 约 是 063。 因此 可 以 选择 上 = eln 一 2)/3， 以 保证 让 带 三 角形 的 图 的 接受 概 
率 至 少 是 112， 如 式 (11-4) 给 出 的 那样 。 因 此 所 描述 的 算法 是 蒙特 卡 洛 的 。 

现在 必须 考虑 这 台 图 灵机 的 运行 时 间 。e 和 n 都 不 大 于 输入 长 度 ， 选 择 k 为 不 大 于 输入 长 度 的 
平方 ， 因 为 上 与 6 和 的 乘积 成 比例 。 由 于 每 次 试验 至 多 扫描 输入 四 遍 (挑选 随机 边 和 顶点 ， 然 后 
人 证 另外 两 条 边 的 存在 ) ， 所 以 每 次 试验 的 时 间 都 是 输入 长 度 的 线性 函数 。 因 此 至 多 在 输 大 长 度 
的 立方 时 间 之 后 ， 这 人 台 图 灵机 就 停机 ， 即 这 人 台 图 灵机 具有 多 项 式 运行 时 间 ， 因 此 满足 语言 属于 
RP 的 第 三 个 和 最 后 一 个 条 件 。 

结论 是 带 三 角形 的 图 的 语言 属于 RP 类 。 注 意 ， 这 个 语言 也 属于 2， 因 为 可 以 系统 地 搜索 所 
有 可 能 的 三 角形 。 但 是 正如 在 11.4 节 开头 指出 过 的 那样 ， 实 际 上 难以 找 出 那些 似乎 属于 RP 一 2 
的 例子 。 站 


11.4.5 识别 RP 语言 


假设 现在 有 一 台 识 别 语言 L 的 多 项 式 时 间 的 蒙特 : 卡 洛 图 灵机 M。 给 定 串 w， 需 要 知道 w 是 否 属 
于 ZL。 如 采 在 w 上 运行 M， 利 用 抛 硬币 或 者 其 他 一 些 随机 数 产生 装置 来 模拟 产生 随机 位 ， 就 可 以 知道 

1. 如 琳 w 不 属于 L， 这 样 的 运行 将 肯定 不 导致 接受 w。 

2. 如 霖 w 属 于 L， 就 至 少 有 50% 机 会 将 接受 w。 


RP 定义 中 的 分 数 1/2 有 何 特 殊 吗 ? 


虽然 定义 RP 时 要 求 属于 L 的 串 w 的 接受 概率 应 当 至 少 是 1/2; 但 是 也 可 以 用 适当 介 于 0 与 
1 之 间 的 任何 常数 来 代替 1/2 去 定义 RP。 定 理 11.16 说 通过 适当 次 数 重复 M 所 做 的 试验 ， 就 可 
以 让 接受 概率 要 多 高 就 有 多 高 ， 一 直达 到 但 不 包含 1。 而 且 通 过 让 试验 重复 某 常数 次 ， 与 
在 11.4.5 用 来 降低 属于 Z 的 串 的 非 接受 概率 ， 相 同 技术 将 允许 把 随机 化 图 灵机 接受 属于 


的 w 的 概率 从 任何 大 于 0 的 值 增加 到 1/2。 

我 们 将 继续 要 求 把 1/2 作 为 RP 定义 中 的 接受 概率 ， 但 是 应 当知 道 任何 非 零 的 概率 都 足以 
用 在 RP 类 的 定义 中 。 田 一 方面 ， 把 这 个 常数 从 172 改 成 其 他 值 ， 将 改变 具体 的 随机 化 图 灵机 
所 定义 的 语言 。 例 如 ， 在 例 11.14 中 注意 到 ， 把 要 求 的 概率 降低 到 1/16， 将 如 何 导致 串 001 
属于 在 那里 讨论 的 随机 化 图 灵机 所 接受 的 语言 。 





但 是 ， 如 果 简 单 地 把 这 样 运行 的 输出 当 作 是 权威 性 的 ， 那 么 当 本 来 应 当 接 受 w 时 ， 有 时 将 拒 
绝 w ( 弃 真 结果 )， 尽 管 当 本 来 不 应 当 接 受 w 时 ， 将 决 不 会 拒绝 w ( 取 伪 结果 )。 因 此 必须 在 随机 [508 
化 图 灵机 本 身 与 用 来 判定 w 是 否 属于 L 的 算法 之 间 做 出 区 分 。 虽 然 永远 不 能 彻底 避免 弃 真 ， 但 是 
通过 多 次 重复 试验 就 能 把 弃 真 的 概率 降低 到 要 多 小 就 有 多 小 。 
比如 ， 如 果 需 要 让 弃 真 概率 是 十 亿 分 之 一 ， 那 么 可 以 把 测试 运行 30 次 。 如 果 w 属 于 L， 那 么 
所 有 30 次 测试 都 不 导致 接受 的 机 会 就 不 超过 2-*?， 这 个 值 小 于 10-， 即 小 于 十 亿 分 之 一 。 通 常 ， 
如 果 需 要 让 弃 真 概率 小 于 c(c > 0)， 就 必须 把 测试 运行 log2(1/c) 次 。 由 于 如 果 c 是 常数 ， 则 这 个 次 
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数 束 是 常数 ， 并 且 由 于 随机 化 图 灵机 的 一 次 运行 花费 多 项 式 时间 (因为 假设 属于 RP ), 所 以 知 
道 这 样 的 反复 测试 也 花费 多 项 式 时 间 。 把 这 些 考虑 的 结果 叙述 成 下 面 这 个 定理 ， 


定理 11.16 ”如 果 L 属 于 RP ， 那 么 对 于 任何 常数 c > 0， 无 论 c 多 么 小 ， 都 存在 多 项 式 时 间 随 
机 化 算法 判定 输入 w 是 否 属于 L， 这 个 算法 没有 取 伪 错 误 ， 弃 页 错误 的 概率 不 大 于 


11.4.6 ZPP 类 


与 随机 化 有 关 的 第 二 个 语言 类 被 称 为 零 错误 概率 多 项 式 ( 即 2ZPP)。 这 个 类 是 基于 一 种 总 是 
停机 ， 并 且 停机 的 期 望 时 间 是 输入 长 度 的 某 个 多 项 式 的 随机 化 图 灵机 。 如 果 这 种 图 灵机 进入 接 
受 状态 (因此 在 这 个 时 刻 停机 )， 就 接受 输入 ， 而 如 果 停 机 不 接受 ， 就 拒绝 输入 。 因 此 ，ZzPP 类 
的 定义 几 平 与 了 的 定义 相同 ， 不 同 之 处 在 于 ， 2Z2PP 允许 图 灵机 的 行为 与 随机 性 有 关 ， 并 且 度 量 
的 是 期 望 运行 时 间 而 不 是 最 坏 情 形 运行 时 间 。 

总 是 给 出 正确 答案 但 运行 时 间 根 据 某 些 随机 位 的 值 而 变化 的 图 灵机 有 时 称 为 拉 斯 . 维 加 斯 
图 灵机 (Las-Vegas Turing machine) 或 拉 斯 : 维 加 斯 算法 。 因此 可 以 认为 ZPP 是 带 多 项 式 期 望 
运行 时 间 的 拉 斯 稚 加 斯 图 灵机 所 接受 的 语言 。 


11.4.7 RP 与 Z2PP 之 间 的 关系 


在 已 经 定义 的 两 个 随机 化 类 之 间 有 一 种 简单 的 关系 。 为 了 叙述 这 个 定理 ， 首 先 需要 考虑 这 
些 类 的 补 。 应 当 清 楚 的 是 ， 如 果 L 属 于 ZzPP， 那 么 工 也 属于 ZzPP。 原 因 在 于 ， 如 果 多 项 式 期 望 时 
间 的 拉 斯 : 维 加 斯 图 灵机 M 接 受 KL， 那么 M 的 修改 型 就 接受 工 ， 其 中 把 M 的 接受 状态 改 为 停机 
不 接受 状态 ， 而 如 果 M 停 机 不 接受 ， 就 进入 接受 状态 并 停机 。 

但 是 RP 对 补 封闭 却 并 不 是 显而易见 的 ， 因 为 蒙特 卡 洛 图 灵机 的 定义 非 对 称 地 处 理 接受 和 
拒绝 。 因 此 ， 定 义 RP 补 (co-RP)。 类 为 使 得 工 属于 RP 的 那些 语言 L 的 集合 ， 即 co-RP 是 RP 语言 
的 补 。 


定理 11.17 2ZPP= RPNM co-XP 。 

证 明 首先 证 明 RP 站 co-RP CZPP 。 假 设 < 属 于 RP mn co-RP 。 也 就 是 说 ,，L 和 工 都 有 蒙特 - 
卡 洛 图 灵机 , 各自 都 有 多 项 式 运行 时 间 。 假设 p(n) 是 大 到 足以 限制 这 两 台 机 器 运行 时 间 的 多 项 式 。 
设计 接受 L 的 拉 斯 : 维 加 斯 图 灵机 MM 如下。 

1. 运行 L 的 蒙特 * 卡 洛 图 灵机 ， 如 果 这 个 图 灵机 接受 ，M 就 接受 并 停机 。 

2. 如 采 这 个 图 灵机 不 接受 ， 就 运行 工 的 蒙特 . 卡 洛 图 灵机 。 如 采 这 人 台 图 灵机 接受 ，M 就 售 

机 不 接受 。 否 则 ,，M 返 回 步 又 (])。 

显然 仅 当 输入 w 属 于 L 时 ，M 才 接受 w， 并 且 仅 当 w 不 属于 L 时 ， M 才 拒绝 w。 一 轮 , (步骤 1 和 
步 又 2 的 一 次 执行 ) 的 期 望 运行 时 间 是 2p(n)。 另 外 ， 任 何 一 轮 将 解决 问题 的 概率 至 少 是 1/2。 如 
末 w 属 于 L， 那 么 步骤 (1) 有 50% 机 会 导致 M 接 受 ， 而 如 果 w 不 属于 L， 那 么 步 受 (2) 有 50% 机 会 导致 


M 拒 绝 。 因 此 M 的 期 望 运行 时 间 不 超过 


日 在 下 文中 为 了 在 公式 中 便于 表述 ， 多 用 co-RP 表示 RP 补 。 一 编者 注 


es 
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现在 ， 考 虑 逆 命 题 : 假设 L 属 于 ZzPP ， 并 证 明 L 既 属于 RP 又 属于 co-RP 。 已 知 拉 斯 * 维 加 斯 
图 灵机 Mi 接受 L，Mi1 的 期 望 运行 时 间 是 某 个 多 项 式 p(n)。 构 造 接受 L 的 蒙特 卡 洛 图 灵机 M2 如 下 。 
MM 模拟 MMi 达 2p(n) 步 。 如 果 Mi 在 此 期 间接 受 ， 1 就 接受 ; 否则 AM2 就 拒绝 。 

假设 长 度 为 n 的 输入 w 不 属于 LL。 那么 Mi 将 肯定 不 接受 w， 因 此 M2 也 将 不 接受 。 现 在 假设 w 属 
于 L。 虽 然 M 将 肯定 最 终 接 受 w， 但 是 在 2p(n) 步 之 内 既 可 能 接受 也 可 能 不 接受 。 

但 是 可 以 断言 Mi 在 2p(n) 步 之 内 接受 w 的 概率 至 少 是 1/2。 假 设 M 在 2p(n) 时 间 之 内 接受 w 的 概 
率 是 常数 c<1/2。 那 么 在 输入 w 上 的 期 望 运行 时 间 就 至 少 是 (1 一 c)2p(n)， 因 为 1 一 c 是 MM 将 要 花 
费 超过 2p(n) 时 间 的 概率 。 但 是 ， 如 果 c<1/2， 那 么 2(1 一 c) > 1，M 在 w 上 的 期 望 运 行 时 间 就 大 于 
P()。 这 样 就 与 Mi 的 期 望 运行 时 间 至 多 是 PC0o) 的 假设 发 生 了 了 矛盾， 因此 就 证 明了 MA 的 接受 概率 至 
少 是 112。 因 此 Mz 是 带 多 项 式 时 间 限 制 的 蒙特 卡 洛 图 灵机 ， 这 就 证 明了 工 属于 RP。 

对 于 7 也 属于 co-Y2 的 证 明 ， 基 本 上 使 用 同样 的 构造 ， 但 是 把 M2 的 输出 取 补 。 也 就 是 说 ， 为 
了 接受 工 ， 当 MI 在 2p(00) 时 间 之 内 拒绝 时 ， 就 让 Wz 接 受 ， 否 则 就 让 MWMz 拒 绝 。 现 在 Mz 就 是 接受 天 
的 带 多 项 式 时 间 限 制 的 蒙特 : 卡 洛 图 灵机 。 加 


11.4.8 与 2 类 和 XP 类 的 关系 
定理 11.17 说 ZPP C RP 。 通 过 下 面 的 简单 定理 ， 可 以 把 这 些 类 置 于 2 和 2P 之 间 。 


定理 11.18 2GZ2PP 。 
证 明 任何 确定 型 的 带 多 项 式 时 间 限 制 的 图 灵机 也 是 拉 斯 : 维 加 斯 的 带 多 项 式 时 间 限 制 的 
图 灵机 ， 这 个 图 灵机 碰巧 不 使 用 随机 选择 的 能 力 。 吕 


定理 11.19 RP CNXP。 
证 明 ”假设 给 定 一 台 带 多 项 式 时 间 限 制 的 蒙特 . 卡 洛 图 灵机 Mi 接 


受 语言 L。 可 以 构造 带 同 样 时 间 限 制 的 非 确定 型 图 灵机 M2 也 接受 语言 L。 

每 当 Mi 首 次 检查 一 个 随机 位 时 ，M 就 非 确 定 地 选择 该 随机 位 的 所 有 可 

能 值 ， 并 把 这 个 值 写 在 Ms 自己 的 一 条 带 上 ， 这 条 带 模 拟 M1 的 随机 带 。 

每 当 Mi 接 受 时 ，M, 就 接受 ， 否 则 Mo 就 不 接受 。 \ (« ) ) 
假设 w 属 于 。 于 是 由 于 Ml 至 少 有 50% 概 率 接受 w， 所 以 在 M1 的 随 4 

机 带 上 必须 存在 某 个 位 序列 ， 这 个 位 序列 导致 M1 接受 w。M2 将 从 其 他 

的 位 序列 中 选择 出 这 个 位 序列 ， 从 而 当做 出 了 这 个 选择 时 M2 也 接受 。 


因此 w 属 于 L(M2)。 但 是 ， 如 果 w 不 属于 L， 就 没有 随机 位 序列 会 使 M1 接 
受 ， 因 此 没有 随机 位 序列 会 使 M 接 受 。 因 此 w 不 属于 L(M)。 D 
图 11-8 ZPP FN RP 
图 11-8 说 明 刚才 介绍 的 类 与 其 他 “邻近 的 ”类 之 间 的 关系 。 与 其 他 类 的 关系 
11.5 素数 性 测试 的 复杂 性 


本 市 将 考察 一 个 具体 问题 ,测试 一 个 整数 是 否 素数 。 首 先 讨论 这 样 做 的 动机 ， 这 个 动机 涉 


-于 - 


350 Fs 3 


及 素数 和 素数 性 测试 如 何 成 为 计算 机 安全 系统 中 的 要 素 。 然 后 证 明 素 数 集合 既 属 于 NP 又 属于 
co-NP9 。 最 后 讨论 一 个 随机 化 算法 ， 这 个 算法 证 明 素数 集合 也 属于 RP 。 


11.5.1 素数 性 测试 的 重要 性 


如 果 整 数 p 只 能 被 1 和 P 本 身 整 除 ， 就 说 p 是 素数 。 如 有 果 一 个 整数 不 是 素数 ， 就 说 这 个 整数 是 
合 数 。 在 不 考虑 因子 顺序 的 情况 下 ， 每 个 合 数 都 能 以 惟一 的 方式 写成 素数 的 乘积 。 


例 11.20 .开头 几 企 素数 是 2、3、5.， 7 13 和 和 17。 整数 504 是 合 数 ， 系 因 计 分 解 是 23 x 
3¢ 7 EE 


存在 许多 加 强 计算 机 安全 性 的 技术 ， 现 今 使 用 的 最 普通 方法 依赖 于 下 面 这 个 假设 : 难以 把 
整数 分 解 因子 ， 也 就 是 说 ， 难 以 找 出 给 定 的 合 数 的 素 因 子 。 上 有 具体 地 说 ， 基 于 所 谓 RSA 密 码 ( 代 
表 这 项 技术 的 发 明 者 R. Rivest、A. Shamir 和 L. Adelman) 的 方案 都 使 用 一 个 整数 (如 128 位 )， 这 
个 整数 又 是 各 自 约 长 64 位 的 两 个 整数 的 乘积 。 下 面 是 素数 起 重要 作用 的 两 种 方案 。 

11.5.1.1 分 钥 密 码 学 

用 户 需 要 从 网 上 书 商 那 里 购买 一 本 书 。 书 商 询问 用 户 的 信用 卡号 码 ， 但 是 把 号 码 键入 表格 
并 在 电话 线 或 互联 网 上 传输 ， 这 样 做 太 冒 险 了 。 原 因 在 于 ， 某 个 人 可 能 窃听 电话 线 或 拦截 互联 
网 上 传播 的 数据 包 。 

为 了 避免 让 窃听 者 能 够 读 出 信用 卡号 ， 书 商 给 用 户 浏览 器 发 送 密 钼 人 ， 这 个 密 钥 可 能 是 两 个 
素数 的 128 位 乘积 ， 这 是 书 商 计算 机 专门 为 这 个 目的 而 产生 的 。 用 户 浏览 器 使 用 函数 y = f(x)， 同 
时 输入 密 钥 £0 需要 加 密 的 数据 x。 这 个 函数 1 是 RSA 方 案 的 一 部 分 ， 虽 然 这 个 函数 可 以 向 大 众 公 
开 ， 包 括 注 在 的 窃听 者 在 内 ， 但 是 据 信 如 果 不 知道 的 因子 分 解 ， 就 不 能 在 小 于 k 的 长 度 的 指数 
时 间 之 内 计算 出 反 函 数 全 !， 使 得 x = fr!1(y)。 

因此 ， 即 使 儿 听 者 看 到 y 并 知道 /如何 工作 ， 但 如 果 不 计算 出 然后 把 k 分 解 因子 ， 那 么 这 个 窗 
昕 者 还 是 不 能 恢复 出 x， 在 本 例 中 x 是 用 户 信 用 卡号 。 另 一 方面 ， 网 上 书 商 知道 的 因子 分 解 ， 因 
为 书 商 最 先 产生 了 密 钥 kE， 所 以 可 以 轻而易举 应 用 大 :并 且 从 y 恢 复出 x。 

11.5.1.2 公 钥 签名 

设计 RSA 密 码 的 原始 方案 如 下 。 用 户 愿 意 能 够 给 电子 邮件 “签名 ”， 使 得 人 们 能 够 轻而易举 
确定 电子 邮件 来 自用 户 ， 但 是 没有 人 能 “伪造 ”电子 邮件 的 用 户 签名 。 例 如 ， 用 户 可 能 希望 给 
请 奶 x = “我 承诺 支付 李 : 萨 莉 10 美 元 ”签名 ,但 是 用 户 不 希望 萨 莉 自己 产生 这 条 签名 消息 ， 也 
不 希望 第 三 方 在 用 户 不 知情 的 情况 下 产生 这 条 签名 消息 。 

为 了 文 持 这 些 目 标 ， 用 户 选 择 一 个 密 钥 ， 只 有 用 户 才 知 道 k 的 素 因 子 。 用 户 向 大 众 公 布 ， 
比方 说 在 用 户 的 网 站 上 ， 使 得 每 个 人 都 可 以 对 任意 消息 应 用 函数 所。 如 果 用 户 需 要 给 上 述 消息 x 


签名 并 将 其 发 送 给 萨 莉 就 计算 y = f(x) 并 把 y 发 送 给 萨 莉 ， 而 不 是 发 送 x。 萨 莉 可 以 从 用 户 的 


日 ”本 市 后 面 几 处 提 到 似乎 不 存在 测试 素数 的 多 项 式 时 间 算 法 ， 这 样 的 说 法 现在 当然 过 时 了 ， 对 此 就 不 再 一 一 注 
明 ， 请 读者 自己 注意 。 一 一 译 者 注 


se 


网 站 上 获得 公 钥 所 ， 并 据 此 计算 出 x= 不 9)。 因此 她 知道 用 户 确实 承诺 了 支付 10 美 元 。 
如 果 用 户 否认 发 送 了 消息 y， 萨 莉 就 可 以 在 法 官 面前 证 明 只 有 用 户 才 知 道 函 数 记 !， 无 论 她 或 
任何 第 三 方 都 “不 可 能 ”发 现 这 个 函数 。 因 此 只 有 用 户 才 可 能 产生 y。 这 个 系统 依赖 于 一 个 似乎 
成 立 但 未 经 证 明 的 假设 ; 非常 难以 分 解 两 个 大 素数 的 乘积 。 
11.5.1.3 关于 素数 性 测试 的 复杂 性 要 求 
据 信 上 述 两 个 方案 都 是 行 得 通 的 而 且 都 是 安全 的 ， 这 样 说 的 意思 是 : 分 解 两 个 大 素数 的 
乘积 确实 花费 指数 时 间 。 本 章 和 第 10 章 研究 的 复杂 性 理论 通过 两 种 方式 进入 安全 性 和 密码 学 
研究 : 
1. 构造 公 钥 要 求 能 够 快速 发 现 大 素数 。 数 论 的 基本 事实 是 : n 位 数 成 为 素数 的 概率 具有 1/n 
的 阶 。 因 此 ， 如 果 有 多 项 式 时 间 (就 1 而 音 ， 不 是 就 素数 本 身 的 值 而 言 ) 方 法 来 测试 一 个 
n 位 数 是 否 素数 ， 就 可 以 随机 挑选 数字 ， 测 试 这 些 数字 ， 当 找到 一 个 素数 时 停止 。 这 将 可 
能 给 出 发 现 素 数 的 多 项 式 时 间 的 拉 斯 : 维 加 斯 算法 ， 因 为 在 遇 到 一 个 n 位 素数 之 前 必须 测 
试 的 数 的 期 望 个 数 大 约 是 x。 例 如 ， 如 果 需 要 64 位 素数 ， 那 么 将 可 能 必须 测试 平均 大 约 64 
个 整数 ， 尽 管 当 运气 不 好 时 ， 可 能 必须 多 测试 说 不 定 多 少 个 数 。 不 幸 的 是 ， 在 11.5.4 节 将 
要 看 到 似乎 不 存在 有 保证 的 多 项 式 时 间 素 数 测试 ， 尽 管 存在 多 项 式 时 间 的 蒙特 . 卡 洛 算 
法 。 
.基于 RSA 的 密码 学 的 安全 性 依赖 于 通常 不 存在 分 解 因子 的 多 项 式 (就 密 钥 位 数 而 言 ) 方法 ， 
特别 是 不 存在 分 解 明 知 是 恰好 两 个 大 素数 之 积 的 数 的 方法 。 如 果 能 够 证 明 素数 集合 是 NP 
完全 语言 ， 或 者 甚至 合 数 集合 是 NP 完全 的 ， 那 将 是 一 件 非常 令 人 快乐 的 事 。 因 为 如 此 一 
来 ， 一 个 多 项 式 的 因子 分 解 算 法 就 将 证 明 P = NP， 因 为 这 将 产生 所 有 这 些 语言 的 多 项 式 时 
间 测 试 。 在 11.5.5 节 将 看 到 素数 集合 与 合 数 集合 都 属于 NP。 因 为 这 两 个 集合 是 互补 的 ， 所 
以 假如 有 一 个 是 NP 完全 的 ， 就 将 得 出 NP= co 一 NP ,事实 上 我 们 怀疑 这 个 等 式 的 真实 性 。 
另外 ， 素 数 集合 属于 RP 的 事实 意味 着 ， 假 如 证 明 素数 集合 是 NP 完全 的 ， 就 将 断定 RP = 
WP， 但 这 是 另 一 种 不 太 可 能 的 情况 。 
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11.5.2 同 余 算 术 简 介 


在 考虑 识别 素数 集合 的 算法 之 前 ， 应 当 介绍 关于 同 余 算术 的 基本 概念 ， 也 就 是 说 ， 就 是 模 
菏 个 整数 (常常 是 素数 ) 来 进行 的 普通 算术 运算 。 设 p 是 任意 整数 。 模 p 整 数 是 0,1, …,Pp 一 1。 

可 以 定义 模 p 加 法 和 乘法 只 适用 于 这 组 p 整 数 ， 方 法 是 执行 普通 计算 然后 计算 把 结果 除 以 p 的 
余数 。 加 法 是 直截了当 的 ， 因 为 和 要 么 小 于 p (在 这 种 情况 下 无 需 做 任何 其 他 事情 ) ， 要 么 介 于 p [514 
和 2p 一 2 之 间 (在 这 种 情况 下 ， 减 去 p 就 得 出 在 0, 1, …, p 一 1 范围 内 的 整数 )。 同 余 加 法 服从 通常 
的 代数 定律 ， 即 它 是 交换 的 、 结 合 的 ， 并 且 具 有 单位 元 0。 减 法 仍然 是 加 法 的 逆 ， 并 且 可 以 计算 
同 余 差 x 一 y， 方 法 是 照常 相 减 ， 如 果 结 果 小 于 0， 就 加 上 p。x 的 相反 数 ( 即 一 x) 等 于 0 一 x， 正 如 
在 普通 算术 中 那样 。 因 此 ， 一 0=0， 并 且 若 x 去 0， 则 一 x 等 于 p 一 x。 


例 11.21 假设 p = 13。 于 是 3 + 5 = 8 并 且 7 + 10 =4。 为 了 看 出 后 者 注意， 在 普通 算术 中 7 + 
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10 = 17，17 不 小 于 13。 因 此 减 去 13 得 出 正确 结果 4。 一 5 模 13 的 值 是 13 一 5 或 者 8。 模 13 的 差 11 -4 是 
7， 但 是 差 4 一 11 是 6。 为 了 看 出 后 者 ， 在 普通 算术 中 4 一 11 = 一 7， 所 以 必须 加 上 13 得 出 6、。 口 


执行 模 p 乘 法 ， 就 是 当 作 普 通 数 相 乘 ， 然 后 取出 结果 除 以 z 的 余数 。 乘 法 也 满足 通常 的 代 
数 定律 ， 即 它 是 交换 的 与 结合 的 ， 并 且 1 是 单位 元 ，0 是 零 元 ， 乘 法 在 加 法 上 分 配 。 但 是 ， 
除 以 非 零 值 则 需要 灵活 处 置 ， 其 至 连 模 p 整 数 的 逆 的 存在 性 都 依赖 于 p 是 否 素数 。 一 般 说 来 ， 
如 霖 x 是 模 p 整 数 之 一 ， 也 就 是 说 0<x<p， 那 么 x-! 或 1/x 就 是 使 得 xy = 1 模 p 的 数 y， 假 如 y 存 在 


例 11.22 “在 图 11-9 中 可 以 看 到 模 素数 7 的 非 零 整 数 乘 法 表 。 第 太 与 第 / 列 的 项 是 模 7 乘 积 太 
注意 ， 每 个 非 零 整 数 都 有 逆 : 2 和 4 互 团 ，3 和 5 也 互 逆 ，1 和 6 都 是 自身 的 逆 。 也 就 是 说 ，2 x 4、 
3Xx5、1 x1、6x6 都 等 于 1。 因 此 可 以 计算 x 除 以 任何 非 零 数 y 的 结果 x/y， 方法 是 计算 y ! 然 后 做 
乘法 xxy-!。 例 如 ,3/4 =3x4-!1=3x2=6, 





图 11-9 模 7 乘法 图 11-10 模 6 乘 法 


将 这 种 情况 与 模 6 乘 法 表 (图 11-10) 比较 一 下 。 首 先 注意 只 有 1 和 5 都 还 有 逆 ， 1 和 5 都 是 自 
身 的 逆 。 其 他 数 没 有 逆 。 并 且 存 在 一 些 非 零 数 ， 这 些 数 乘积 为 0， 比 如 2 和 3。 普通 整数 算术 从 不 
会 发 生 这 种 情况 ， 就 连 模 素数 的 算术 也 不 会 发 生 这 种 情况 。 口 


在 以 素数 为 模 和 以 合 数 为 模 的 乘法 之 间 存在 另 一 个 区 别 ， 这 个 区 别 对 于 素数 测试 来 说 非常 
重要 。 数 % 模 的 次 数 是 < 的 等 于 1 的 最 小 正 寡 次 。 下 面 是 一 些 有 用 的 事实 ， 这 里 将 不 予 证 明 。 

" 如 用 p 是 素数 ， 那 么 ar-! = 1 模 p。 这 个 命题 被 称 为 费 马 小 定理 9 。 

* a 的 模 素数 p 次 数 总 是 p 一 1 的 模 p 因 子 。 

* 如 琳 p 是 素数 ， 那 么 总 是 存在 某 个 4，a 模 p 次 数 为 p 一 1。 


例 11.23 再 考虑 一 下 图 11-9 中 的 模 7 乘法 表 。2 的 次 数 是 3， 因 为 2 = 4 并 且 23 = 1 。3 的 次 数 
征 6， 因 为 3 = 2，33 = 6，34 = 4，35 = 5 并 且 36 = 1。 通 过 类 似 的 计算 发 现 ， 4 的 次 数 是 3，5 的 次 
数 是 6，6 的 次 数 是 2， 并 且 1 的 次 数 是 1。 网 


11.5.3， 同 余 算 术 计算 的 复杂 性 


在 继续 讨论 把 同 余 算 术 应 用 到 素数 性 测试 之 前 ， 还 必须 建立 关于 基本 运算 运行 时 间 的 某 些 
基本 事实 。 假 设 希望 模 某 个 素数 p 计 算 ， 并且 p 的 二 进 制 表示 长 度 为 4 位 ， 即 p 本 身 大 约 是 2"。 与 


通常 一 样 ， 计 算 的 运行 时 间 是 就 输入 长 度 n 而 言 ， 而 不 是 就 输入 “ 值 ”p 而 音 。 例 如 ， 计数 直到 p， 


昌 不 要 混 清 “ 费 马 小 定理 ”与 “ 费 马 大 定理 ”"”， 后 者 断言 对 于 n>3， + y=z? 不 存在 整数 解 。 
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这 样 做 花费 0(2”) 时 间 ， 因 此 以 n 来 度量 ， 包 含 p 步 的 任何 计算 都 将 不 是 多 项 式 时 间 的 。 

但 是 的 确 可 以 在 O(n) 时 间 内 在 典型 计算 机 或 多 带 图 灵机 上 把 两 个 数 模 p 相 加 。 回 忆 一 下 ， 只 
不 过 是 把 两 个 二 进 制 数 相 加 ， 如 果 结 果 是 p 或 更 大 ， 就 减 去 p。 同 样 地 ， 可 以 在 O(n 时 间 之 内 在 
计算 机 或 图 灵机 上 把 两 个 数 模 p 相 乘 。 用 普通 方法 把 两 个 数 相 乘 ， 得 到 至 多 2n 位 的 结果 ， 然 后 除 
以 p 取 余数 。 

计算 数 x 的 寡 需 要 灵活 处 置 ,， 因为 这 个 寡 可 能 本 身 是 ?的 指数 。 正 如 将 要 看 到 的 那样 ;一 个 
重要 步骤 是 计算 x 的 p 一 1 次 宕 。 因 为 p 一 1 大 约 是 2*?， 所 以 如 果 让 x 自 乘 p 一 2 次 ， 那 么 即使 每 次 乘法 
只 涉及 n 位 数 并 且 可 以 在 O(n?) 时 间 内 完成 ， 也 需要 O(2”) 次 乘法 ， 总 时 间 将 是 O(n?2")， 这 个 时 间 
不 是 n 的 多 项 式 。 z 

幸运 的 是 ， 存 在 一 种 “递归 加 们 ”技巧 ， 可 在 n 的 多 项 式 时 间 内 计算 xr! (或 x 的 到 p 为 止 的 
任意 其 他 需 次 ) : 

1. 计 算 至 多 mz 个 害 z, 妇 , Xt, 戏 , …， 直 到 指数 超过 p 一 1 为 止 。 每 个 值 都 是 在 O(n”) 时 间 内 计算 出 

的 n 位 数 ， 即 把 序列 中 前 一 个 值 平方 ， 所 以 总 工作 量 是 O(n3)。 
2. 求 出 p 一 1 的 二 进 制 表示 ， 比 如 说 p 一 1 = an-1…aiao。 可 以 写成 


p—1=a0+2a+4as + + 2 lan1 


其 中 每 个 a 都 是 0 或 1。 因 此 ， 


a a n—l1 
XP 1 ~ xa0+2a] +4a2+ 十 2 本 


这 是 那些 a; = 1 的 芒 值 的 乘积 。 因 为 在 步骤 (1) 中 逐个 计算 过 这 些 »， 并 且 每 个 都 是 n 位 数 ， 
所 以 可 以 在 O02) 时 间 之 内 计算 出 这 2 个 或 更 少 的 数 的 乘积 。 
因此 zx- 的 全 部 计算 化 费 OC02) 时 间 。 


11.5.4 随机 多 项 式 素数 性 测试 


现在 ， 将 讨论 如 何 用 随机 化 计算 来 找到 大 素数 。 更 确切 地 说 ， 将 证 明 合 数 的 语言 属于 RP。 
实际 用 来 产生 n 位 素数 的 方法 是 : 随机 挑选 一 个 n 位 数 ， 多 次 (比方 说 50 次 ) 应 用 蒙特 卡 洛 算 
法 来 识别 合 数 。 如 果 所 有 50 次 都 不 说 是 合 数 ， 那 么 真是 合 数 的 概率 就 不 超过 2-”。 因 此 可 以 相当 
安全 地 说 这 个 数 是 素数 ， 并 且 让 安全 操作 基于 这 个 事实 。 

这 里 将 不 给 出 完整 的 算法 ， 而 是 宁愿 讨论 除 极 个 别 情形 外 都 起 作用 的 思想 。 回 忆 一 下 ， 费 
马 小 定理 说 如 果 p 是 素数 ， 那 么 w-! 模 p 就 总 是 等 于 1。 还 有 一 个 事实 是 如 果 p 是 合 数 ， 并 且 存 在 x， 
使 得 w !' 模 p 不 等 于 1， 那 么 对 于 1 到 p 一 1 范围 内 至 少 一 半 的 x， 将 发 现 w! 关 1。 

因此 ， 以 下 步骤 将 作为 用 来 识别 合 数 的 蒙特 : 卡 洛 算法 : 

1. 在 1 到 p 一 1 范围 内 随机 挑选 x。 

2. 计算 wr-!' 模 p。 注 意 ， 如 果 p 是 n 位 数 ， 那 么 根据 11.5.3 节 未 尾 的 讨论 ， 这 个 计算 花费 O(n3) 

时 间 。 

3. 如 条 zi 1! 取 1 模 p， 就 接受 ; x 是 合 数 。 否 则 就 停机 不 接受 。 

如 果 p 是 素数 ， 就 有 wr! = 1， 所 以 总 是 停机 不 接受 ， 这 是 蒙特 * 卡 洛 要 求 的 一 部 分 ， 即 要 求 
如 果 输 入 不 属于 语言 ， 就 永 不 接受 。 对 于 几乎 所 有 的 合 数 ， 至 少 一 半 的 x 值 将 让 xw?"' 去 1， 所 以 在 
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这 个 算法 的 任何 一 次 执行 中 ， 至 少 有 50% 机 会 接受 ; 这 是 蒙特 : 卡 洛 算法 的 另 二 部 分 要 求 ， 

假如 不 是 因为 存在 少量 合 数 c<， 使 得 对 于 在 1 到 c 一 1 范围 内 的 多 数 x (具体 地 说 ， 就 是 与 c 没 
有 公共 素 因 子 的 那些 x)， 有 x'!= 1 模 c， 那 么 到 现在 为 止 已 经 描述 的 内 容 就 将 是 合 数 集合 属于 RP 
的 证 明 。 这 些 合 数 称 为 卡 米 切 尔 数 (Carmichael number)， 需 要 用 另 二 种 更 复杂 的 测试 (这 里 不 
描述 这 种 测试 ) 来 探测 卡 米 切 尔 数 是 合 数 。 最 小 的 卡 米 切 尔 数 是 561。 也 就 是 说 ， 虽 然 561 2 3x 
1 x 17 显 然 古 合 数 ， 但 可 以 证 明 对 于 不 能 被 3、11 或 17 整 除 的 所 有 x， xs = 1 模 561。 因 此 将 断言 
下 面 这 个 定理 但 不 给 出 完整 证 明 : 


定理 11.24 合 数 集合 属于 RP。 口 






能 否 在 多 项 式 时 间 内 分 解 因子 ? 


注意 11.5.4 节 的 算法 可 能 只 说 一 个 数 是 合 数 ， 而 不 说 如 何 分 解 这 个 合 数 。 据 信 没有 办 法 
只 化 费 多 项 式 时 间或 者 甚至 只 花费 期 望 多 项 式 时 间 来 对 数 分 解 因子 ， 即使 利用 随机 性 也 不 
行 。 如 果 这 个 假设 不 正确 ， 那么 在 11.5.1 节 所 讨论 的 应 用 将 会 是 不 安全 的 和 不 能 使 用 的 ， 






11.5.5 非 确定 型 素数 性 测试 


现在 继续 讨论 另 一 个 关于 测试 素数 性 的 有 趣 而 重要 的 结果 ， 素数 语言 属于 Xp mn co-Xp ， 因 
个 数 语言 ( 即 素数 语言 的 补 ) 也 属于 Xe m co-WP 。 这 个 结果 的 重要 性 在 于 ， 素 数 语言 或 合 数 
百 丰 NP 完全 的 ， 这 都 不 太 可 能 是 真 的， 因为 假如 有 一 个 是 真 的 ， 那 么 将 会 有 出 人 意料 的 等 
NP = co-NP 。 

一 部 分 是 容易 的 合 数 语言 显然 属于 XP ， 所 以 素数 语言 属于 co-Wtp 首先 证 明 这 个 事实 ， 


定理 攻 .25 合 数 集合 属于 WP 。 
证 明 “识别 合 数 集合 的 非 确定 型 多 项 式 时 间 算 法 如 下 : 
1. 给 定 n 位 数 p， 猜 测 至 多 n 位 长 的 因子 /。 但 是 不 要 选 f= 1 或 /=p。 这 部 分 是 非 确定 性 的 ，j/ 的 
所 有 可 能 值 都 被 沿 着 某 个 选择 序列 猜 到 了 。 但 是 任何 选择 序列 花费 的 时 间 都 是 O(n)。 
2:P 际 以 [， 并 且 验 证 余数 是 0。 若 是 ， 则 接受 。 这 部 分 是 确定 性 的 ， 可 在 O(n 时 间 内 在 多 带 
图 灵机 上 实现 。 
如 采 p 是 合 数 ， 那 么 p 必 须 有 至 少 一 个 除 1 和 p 之 外 的 因子 。 因为 非 确定 型 图 灵机 猜测 所 有 可 
能 的 不 超过 n 位 的 数 ， 所 以 它 将 在 某 个 分 支 中 猜测 到 f。 这 个 分 支 导 致 接受 有 反 过 来 说 ， 非 确定 
型 图 灵机 接受 ， 就 蕴涵 着 发 现 了 p 的 除 1 和 p 本 身 外 的 因子 。 因此 所 描述 的 这 台 非 确定 型 图 灵机 接 
受 由 所 有 合 数 并 且 只 有 合 数 组 成 的 语言 。 口 


此 会 
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用 非 确 定型 图 灵机 来 识别 素数 就 更 困难 了 。 虽然 能 够 猜测 一 个 数 不 是 素数 的 理由 (因子 )， 
然后 验证 猜测 正确 ， 但 是 如 何 “ 猜 测 ” 一 个 数 是 素数 的 理由 ? 非 确定 型 多 项 式 时间 算 法 是 基于 下 
面 这 样 的 事实 (断言 但 不 证 明 ) 的 如果 p 是 素数 ， 那么 在 1 和 p 一 1 之 间 存 在 数 x，x 的 次 数 为 p 一 1， 


比如 在 例 11.23 中 观察 到 对 于 素数 7 来 说 ， 数 3 和 5 的 次 数 都 为 6。 
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虽然 利用 非 确定 型 图 灵机 的 非 确定 性 能 力 可 以 轻而易举 猜测 数 x， 但 并 不 是 立刻 就 清楚 如 何 
验证 x 的 次 数 为 p 一 1。 原 因 在 于 ， 如 果 直 接应 用 “次 数 ” 的 定义 ， 那 么 需要 验证 2, 双 …, ”都 
等 于 1。 这 样 做 需要 执行 p 二 3 次 乘法 ， 如 果 p 是 n 位 数 ， 就 需要 至 少 2" 时 间 。 

更 好 的 策略 是 利用 另 一 个 断言 而 不 证 明 的 事实 :x 模 p 的 次 数 是 p 一 1 的 因子 。 因 此 如 采 知 违 
了 p 一 1 的 因子 9'， 那 么 对 p -1 的 每 个 素 因 子 4 验 证 xe-04 关 1 就 足够 了 。 如 果 x 的 这 些 需 都 不 等 于 1， |51 
那么 x 的 次 数 就 必须 是 p 一 1。 这 些 测试 的 个 数 是 O(n)， 所 以 可 在 多 项 式 时 间 算 法 中 完成 。 不管 怎 
样 ， 可 以 非 确 定性 地 猜测 p 一 1 的 素 因 子 ， 并 且 

a) 验证 这 些 因子 的 乘积 确实 是 p 一 1。 

b) 利用 目前 一 直 正 在 设计 的 非 确定 型 多 项 式 时 间 算 法 来 递归 地 验证 每 个 都 是 素数 。 

这 个 算法 的 细节 以 及 这 个 算法 是 非 确定 型 多 项 式 时 间 的 证 明 ， 都 在 下 面 定理 的 证 明 中 。 


定理 11.26 素数 集合 属于 NP。 
证 明 ”给 定 n 位 素数 ?， 如 下 进行 。 首 先 如 果 n 不 大 于 2 ( 即 p 是 1，2 或 3) ， 就 直接 回答 问题 ， 
2 和 3 都 是 素数 而 1 不 是 。 否 则 就 : 
1. 猜测 因子 的 列表 (qi, 92…, 9)， 其 二 进 制 表示 总 长 至 多 2n 位 ， 且 没有 一 个 超过 n 一 1 位 。 允 
许 同 一 个 素数 出 现 多 次 ， 因 为 p 一 1 的 因子 可 能 是 素数 的 大 于 1 次 宕 ， 比 如 ， 若 m = 13, 则 P 
-1= 12 的 素 因 子 都 在 列表 (2,2, 3) 里 。 这 部 分 是 非 确定 性 的 ， 但 每 个 分 支 花 费 O(n) 时 间 ，。 
2. 把 这 些 q; 乘 到 一 起 并 验证 其 乘积 是 p 一 1。 这 部 分 花费 不 超过 O(n 时间 并 且 是 确定 性 的 。 
3. 如 果 其 乘积 是 p 一 1， 就 利用 这 里 描述 的 算法 来 递归 地 验证 每 个 都 是 素数 。 2 
4. 如 果 这 些 q; 都 是 素数 ， 就 猜测 x 的 值 并 对 任何 gj 都 验证 x?-9% 去 1。 这 个 测试 保证 x 模 p 次 数 
是 p 一 1， 因 为 假如 不 是 ，x 的 次 数 就 必须 整除 至 少 一 个 (Dp 二 1)/g;， 但 刚刚 验证 过 不 是 这 样 。 
注意 ， 毫 无 疑问 对 于 任何 x 的 宕 ， 当 寡 指 数 等 于 x 的 次 数 时 ， 这 个 过 都 必定 等 于 1。 可 以 用 
11.5.3 节 描述 的 有 效 方 法 来 求 曙 。 因 此 ， 至 多 有 Kk 次 (确实 不 超过 n 次 ) 求 宕 ， 每 次 可 在 
O(023) 时 间 内 完成 ， 这 样 就 给 出 这 个 步骤 的 总 时 间 O(z9)。 
最 后 ， 必 须 验证 这 个 非 确 定型 算法 是 多 项 式 时 间 的 ,: 除 步骤 (3) 以 外 ;每 个 步骤 沿 任何 非 确 
定性 分 支 至 多 花费 O(z9) 时 间 。 虽 然 这 个 递归 


\O 


O\ 


是 复杂 的 ， 但 是 可 以 把 递归 调用 想像 成 如 图 根 层 

11-11 所 示 的 树 。 根 上 是 需要 验证 的 位 素数 p。 和 0 

根 的 子女 是 9， 这 些 % 是 猜测 的 p 一 1 的 因子 ， pa 1 EAN 520 
也 必须 验证 这 些 因子 都 是 素数 。 每 个 g) 下 面 是 J 

猜测 的 gj 一 1 的 因子 ， 也 必须 验证 这 些 因 子 ， . AN 

等 等 ， 直 到 开始 考虑 至 多 2 位 数 为 止 ， 这 些 数 

pe 图 11-11 定理 11.26 的 算法 所 做 的 递归 调用 


形成 高 和 宽 都 至 多 为 mn 的 树 
由 于 任何 顶点 的 子女 的 乘积 都 小 于 这 个 


顶点 本 身 的 值 ， 所 以 看 出 在 从 根 往 下 任何 深度 上 顶点 值 的 乘积 都 至 多 为 p。 在 带 值 i 的 项 皇上 需 


日 ”注意 ， 如 果 p 是 素数 ， 那 么 除 p = 3 的 平 几 情形 外 ，p 一 1 就 决 不 会 是 素数 。 原 因 在 于 ， 除 2 以 外 所 有 素数 都 是 
奇数 。 


Cn 
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要 的 工作 量 ， 除 了 在 递归 调用 中 完成 的 工作 以 外 ， 对 于 菜 个 常数 a 来 说 至 多 是 a(logzi)*; 原因 在 
于 ， 可 以 确定 这 个 工作 量 的 阶 是 以 二 进 制 表 示 该 值 所 需要 位 数 的 四 次 方 。 

因此 为 了 获得 任意 一 层 所 需 工作 量 的 上 界 ， 必 须 在 乘积 hi … 至 多 为 p 的 约束 条 件 下 ， 把 和 
>allog2(i 六 极 大 化 。 由 于 四 次 方 函数 是 凸 的 ， 所 以 当 所 有 的 值 都 是 i 其 中 之 一 时 ， 最 大 值 出 现 ， 
如 用 = p， 并 且 没 有 其 他 的 i， 那 么 这 个 和 是 a(log2p)*。 这 个 值 至 多 是 ant+， 因 为 n 是 p 的 二 进 制 表 
不 的 位 数 ， 因 此 log2p 至 多 是 n。 

结论 是 在 每 个 深度 上 需要 的 工作 量 都 至 多 为 O0*9)。 因 为 至 多 有 " 层 ,/ 所 以 在 ?是否 是 素数 的 
非 确 定型 测试 的 任何 分 支 中 ，O(m5) 工 作 量 就 足够 了 。 加 


现在 知道 素数 语言 及 其 补 都 属于 NP。 假 如 其 中 一 个 是 NP 完全 的 ， 那 么 根据 定理 11.2， 就 
将 有 NWP= co- WzP 的 证 明 。 


11.5.6 习题 


习题 11.5.1 模 13 计 算 以 下 各 式 . 
a) ll+9, 
*b)9—11。 
CyS XB 
* d) S/8 。 
©) 35 
习题 11.5.2 ”在 11.5.4 节 中 我 们 断言 : 对 于 在 1 到 560 之 间 x 的 大 多 数值 ，xsa = 1 模 561。 挑 选 x 
的 一 些 值 并 验证 这 个 等 式 。 要 保证 先 用 二 进 制 表示 560， 再 对 j 的 不 同 值 模 561 计 算 x*?， 以 避免 559 
次 乘法 ， 就 像 在 11.5.3 节 中 讨论 过 的 那样 。 
习题 11.5.3 ”说 在 1 与 p 一 1 之 间 的 整数 x 是 模 p 二 次 剩余 ， 如 末 存 在 某 个 在 1 与 p 一 1 之 间 的 整数 
y， 使 得 yY=x。 
* a) 模 7 的 二 次 剩余 都 是 哪些 ?可 以 利用 图 11-9 中 的 表 来 帮助 回答 这 个 问题 。 
b) 模 13 的 二 次 剩余 都 是 哪些 ? 
' ©) 证明: 如 果 p 是 素数 ， 那 么 模 p 二 次 剩余 的 个 数 是 (p= 1)/2， 即 恰好 一 半 的 模 p 非 零 整数 是 
一 次 剩余 。 提 示 : 检查 从 部 分 (a) 和 (b) 得 出 的 数据 ， 是 否 看 出 一 种 模式 来 解释 为 什么 每 个 
二 次 剩余 都 是 两 个 不 同 的 数 的 平方 ? 当 p 是 素数 时 一 个 整数 能 否 是 三 个 不 同 的 数 的 平 
方 ? 


11.6 小结 


“XP 补 类 : 如果 一 个 语言 的 补 属 于 NP?， 那 么 就 说 这 个 语言 属于 Xp 补 (co-Xz)， 所 有 ?语言 
的 确 都 属于 co-XP ， 但 可 能 存在 一 些 Xe 语言 不 属于 co-NP ， 反 之 亦 然 ， 具体 地 说 ，NP 完 
全 问题 似乎 都 不 属于 co-XP 。 

“25 类 : 如 果 一 个 语言 被 一 台 确 定型 图 灵机 接受 ， 并 且 存 在 多 项 式 p(n)， 使 得 在 长 度 为 n 的 输 
八 上 ， 这 台 图 灵机 决 不 使 用 超过 p(n) 个 带 单元 ， 那 么 就 说 这 个 语言 属于 Ps (多 项 式 空间 )。 
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。NPS 类 : 也 可 以 定义 一 台 非 确定 型 图 灵机 接受 的 语言 ， 这 台 图 灵机 使 用 的 带 受 到 输入 长 度 
的 多 项 式 函 数 限制 。 把 这 些 语言 的 类 称 为 NP5。 但是， 萨 维 奇 定理 说 25 = N25 。 具 体 地 说 ， 
带 空 间 限制 p(n) 的 非 确 定型 图 灵机 ， 可 以 被 使 用 p>(n) 空 间 的 确定 型 图 灵机 模拟 。 

。 随 机 化 算法 与 随机 化 图 灵机 : 许多 算法 卓有成效 地 利用 随机 性 。 在 真实 计算 机 上 ， 用 随机 
数 发 生 器 来 模拟 “ 抛 硬币 ”。 如 果 增 加 一 条 上 面 写 有 随机 位 序列 的 带 ， 随 机 化 图 灵机 就 可 
以 完成 同样 的 工作 。 

。RP 类 : 如 果 存 在 一 台 多 项 式 时 间 的 随机 化 图 灵机 ， 当 输入 属于 这 一 语言 时 ， 这 台 图 灵机 
至 少 有 50% 机 会 接受 ， 当 输入 不 属于 这 一 语言 时 ， 这 台 图 灵机 决 不 会 接受 ， 那 么 这 个 语言 
就 在 随机 多 项 式 时 间 内 被 接受 。 把 这 样 的 图 灵机 或 算法 称 为 “蒙特 : 卡 洛 ”的 。 

。ZPP 类 : 如 果 一 台 随 机 化 图 灵机 总 是 正确 判定 一 个 语言 的 成 员 性 ， 虽 然 这 台 TM 最 坏 情 况 
的 运行 时 间 可 能 大 于 任何 多 项 式 ， 但 期 望 运行 时 间 一 定 是 多 项 式 的 ， 那 么 这 人 台 图 灵机 接 
受 的 语言 就 属于 零 错误 概率 随机 多 项 式 时 间 类 。 把 这 样 的 图 灵机 或 算法 称 为 “ 拉 斯 . 维 
加 斯 ”的 。 

。 语 言 类 之 间 的 关系 : co-RP 类 是 RP 中 的 语言 之 补 的 集合 。 已 知 下 列 包含 关系 : 了 CZPP C 
(RP Nm co-RP)。 同 样 已 知 RP CWP ， 因 此 co-RP Cco-NP。 

。 素数 集合 与 NP : 素数 语言 及 其 补 〈 合 数 语言 ) 都 属于 NP。 这 些 事 实 使 得 素数 或 合 数 语言 
都 不 太 可 能 是 NP 完全 的 。 由 于 存在 基于 素数 的 重要 密码 方案 ， 这 样 一 个 证 明 本 来 可 以 为 
这 些 方案 的 安全 性 提供 强 有 力 的 证 据 。 

。 素 数 集合 与 RP : 合 数 集合 属于 RP 。 测试 合 数 性 的 随机 多 项 式 时 间 算 法 常用 来 产生 大 素数 ， 
或 者 产生 那些 至 少 是 成 为 合 数 的 机 会 任意 小 的 大 数 。 
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索引 中 的 页 码 为 英文 原 书 页 码 ， 与 书 中 边栏 页 码 一 致 。 


A 


acceptance by empty stack (以 空 栈 方式 接受 )， 
236~241,254 

acceptance by final state (以 终结 状态 方式 接受 )， 
235~241, 253 

accepting state (接受 状态 )，46,，57, '228,327 

accessible state (可 达 状 态 )，45 

Ackermann’s function ( 阿 克 曼 函数 )，391 

address，of memory (存储 器 的 地 址 )，365 

AMAcdelinan. EL.. S13 523 

Agrawal, M. ，525 

Alo, A VY a0 120. .2%4 

algebra (代数 )，87~88，115~121 

algorithm (算法 ) ， 见 recursive language 

alphabet (字母 表 )，28~29，134 

alphabetic character (字母 字符 )，110 

alphanumeric character (字母 数字 字符 )，110 

alt，of languages (语言 的 交叉 ) ，148，297 

ambiguous grammar (歧义 文法 ) ，207~213， 
255~256,307,413~415 

ancestor (祖先 )，184 

annihilator ( 零 元 ， 零 化 池 ),，95,，117 

arithmetic expression (算术 表达 式 )，23~26， 
210~212 

associative law (结合 律 )，115~116 

automaton (自动 机 )，26~28。 另 见 counter machine， 
deterministic finite automaton, finite automaton ， 
nondeterministic finite automaton, pushdown 


automaton, stack machine; Turing machine 


B 


Backus,J. W. (巴克 斯 )，224 
balanced parentheses (匹配 括号 )，194~195 
Bar-Hillel, Y. 169, 314, 422 


basis (基础 )，19,，22~23 _. 

blank (空格 ) ，326~327，353 

block，of a partition (划分 的 块 )，162 

body ( 体 )，173 

boolean expression (布尔 表达 式 )，438~440，448。 
另 见 quantified boolean formula 

Borosh，I.I.481 

bottom-of-stack marker ( 栈 底 标记 ) ，357 


C 


Cantor, D.C., 224, 442 

Carmichael number ( 卡 米 切 尔 数 )，518 

CFG (上下文 无 关 文 法 ) 。 见 context-free grammar 

CFL (上 下 文 无 关 语 言 ) 。 见 context-free language 

character class (字符 类 ) ，109 

child (子女 ， 子 节点 ) ，184 

Chomsky, N.( 乔 姆 斯 基 ),，1, 193, 224，272,，, 
442 

Chomsky normal form ( 乔 姆 斯 基 范 式 )，272~275， 
301 

Church，A、 人 反 奇 )，326 -374 

Church-Turing thesis ( 丘 奇 -图 灵 论 题 ) ，326 

clause ( 子 句 )，448 

clique problem ( 团 问题 ), 473，476 

closure ( 闭 包 ),，87, 89，104~105，110，118， 
199，290，392，437。 另 见 s-closure 

closure property (封闭 性 )，131。 男 见 alt，of langua- 
ges, closure, complementation, concatenation, 
cycle, of a language, derivative, difference, of 
languages, homomorphism, init, of a language, 
intersection, inverse homomorphism, max, of 
a language, min, of a language, partial- 
removal operation, permutation, of a language, 
quotient, reversal, shuffle, of languages, 


substitution ， union 


入 
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TR 


CNF ( 合 取 范式 )， 见 conjunctive normal form 

Cobham, A., 481 

Gocke, J,. S304 314 

code，for Turing machine (图 灵机 代码 )，379~380 

coloring problem (着 色 问 题 )，474~475 

commutative law (交换 律 )，14，115~116 

complementation ( 补 )，134~135，294，385-387， 
3971,. 399, 437 

composite number ( 合 数 )，513 

computer (计算 机 )，322，362~370 

concatenation (连接 )，30，84，88~89，97，104， 
116~117，199，290，392，437 

conclusion (结论 ) ，6 

conjunctive normal form ( 合 取 范 式 ) ，448。 另 见 
CSAT 

co-NP (WP 补 )，483~486，521 

containment，of languages (语言 的 包含 )，417 

context-free grammar .( 上 下 文 无 关 文 法 ), 4， 
171~183，243~251，299~301 

context-free language (上 上下文 无 关 语 言 )，179， 
254~255 

contradiction，proof by ( 归 雇 证 明 ( 反 证 法 ))， 
16~17 

contrapositive 〈 逆 否 命 题 ) ，14~16 

converse ( 逆 命 题 ) ，16 

Cooks S.C.'( 库 到 )，1, 436481~482 

Cook’s theorem ( 库 克 定理 ) ，440~446 

co-RP (RP 补 );，510,，512 

countable set (可 数 集 合 )，318 

counter machine (计数 器 机 器 )，358~361 

counterexample (有 反例)，17~19 

cryptography (密码 学 )，484，513 

CSAT ( 合 取 范式 可 满足 性 问题 )，448~456，473 

cycle，of a language (语言 的 环 )，148，297 

CYK algorithm (CYK 算 法 )，303 一 307 


D 


dead state ( 死 状态 ) ，67 

decidability (可 判定 性 ) ，5。 另 见 undecidable 
problem 

decision property (判定 性 质 ) ， 见 emptiness test， 
equivalence，of languages, membership test 

deductive proof (演绎 证 明 )，6~17 


6 (转移 图 数 ) ， 见 transition function 

6 (扩展 转移 函数 ) ， 见 extended transition function 

DeMorgan’s law ( 德 . 摩根 律 )，450 

deriyation (推导 )，176~177，185~187， 191~193 。 
男 见 leftmost derivation ，rightmost derivation 

derivative (导数 )，148 

descendant (后 代 )，184 

deterministic finite automaton (确定 型 有 穷 自动 机 )， 
45~55, 60~65, 67,，70~71，78~79， 93~102， 
151~153 

deterministic pushdown automaton (确定 型 下 推 自动 
HL}, 252~257 

DFA (确定 型 有 穷 自 动机 )， 见 deterministic finite 
automaton 

DHC (有 向 哈密 顿 回路 问题 )， 见 directed Hamilton- 
circuit problem 

diagonalization (对 角 化 )，378，380~381 

difference，of languages (语言 的 差 )， 138~139，294 

digit (数字 )，110 

directed Hamilton-circuit problem (有 向 哈密 顿 回路 
问题 )，465~471，473 

distinguishable states (可 区 分 状态 ) ，156，158 

distributive law (分 配 律 )，14，116~117 

document type definition (文档 类 型 定义 )， 见 DTD 

dominating-set problem (支配 集 问题 )，476 

dot (点 )，108。 另 见 concatenation 

DPDA (确定 型 下 推 自动 机 )， 见 deterministic 
pushdown automaton 

DTD (文档 类 型 定义 )，171， 194，200~205 

dynamic programming (动态 规划 ) ，304 


E 


electronic money (电子 货币 )，38 

emptiness test ( 空 性 测试 )，153~154，302~303 

empty language ( 空 语言 ), 31,，88，97，103， E16, 
118, 394~396 

empty stack ( 空 栈 )， 见 acceptance by empty stack 

empty string ( 空 串 ),，29, 88, 103, 116, 118 

endmarker (末端 标记 )，359，362 

5 〈 空 串 ) ， 见 Empty string 

E-closure (上 闭 包 ) ，74 

E-NFA (e-NFA), 72~79, 98, 103~107，152~153 

E-production (e 产 生 式 )，261，265~268 


| 
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E-transition (8 转移 )，72，77~78，225 

equivalence ，of boolean expressions (布尔 表达 式 的 
等 价 性 ) 449 

equivalence， of languages (语言 的 等 价 性 ) ， 
1S9~160，307，407~408 

equivalence，of regular expressions (正则 表达 式 的 
等 价 性 )，118~121 

equivalence，of sets (集合 的 等 价 性 ) ，14，16 

equivalence，of states (状态 的 等 价 性 )，155~158 

Even, 9S, ., $25 

Evey, J .200 

exact-cover problem (恰当 覆盖 问题 ) ，476 

exponential time (指数 时 间 )，427 

exponentiation ( 短 )，517 

expression (表达 式 )， 见 arithmetic expression,， 
regular expression 

extended transition function (扩展 转移 国 数 ) ， 
49~51, 53, 58, 75~76 

extensible markup language (可 扩展 标记 语言 )， 见 
XML 
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factor (因子 )，210 

factorization (因子 分 解 )，513，518 

false positive/negative ( 取 伪 / 弃 真 )，508~509 

feed back arc problem (反馈 边 问 题 )，476 

Fermat’s last theorem ( 费 马 大 定理 )， 316~317 

Fermat's thorem ( 费 马 定理 ) ，$16 

final state (终结 状态 ) 见 acceptance by final state ， 
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234，322。 另 见 deterministic finite automaton 

finite control (有 穷 控 制 )， 见 state 

finite set (有 穷 集合 )，8~9，346 

firehouse problem (消防 站 问题 )，476 
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givens (前 提 )， 见 hypothesis 

Go6del，K. ( 哥 德 尔 )，325，374 

grammar (文法 )， 见 ambiguous grammar,，context- 
free grammar, LR(k) grammar, right-linear 
grammar 

graph，of a function (函数 的 图 )，336 

Greibach normal form (格雷 巴赫 范式 )，277~279 

Greibach，S. A. (格雷 巴赫 )，314 

grep 〈 正 则 表达 式 全 局 搜索 及 打印 (一 种 UNIX 命 
A il 23 

Gross，M. ( 格 罗 斯 )，224 
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half，of a language (语言 的 一 半 )， 见 partial- 
removal operation 

halting，of a Turing machine (图 灵机 停机 )， 
334~335，390 

Hamilton-circuit problem (哈密 顿 回路 问题 ) ， 
431~432，465，471 一 473。 另 见 directed 
Hamilton-circuit problem 

Hamilton-path problem (哈密 顿 通 路 问题 )，477 

Hartmanis, J., 169, 374, 481~482, 525 

HC (哈密 顿 回路 问题 )， 见 Hamilton-circuit problem 

head ( 头 )，173 

Hilbert，D. (和 希 尔 伯 特 ) ，325 

Hochbaum, D.S., 481~482 

homomorphism 〈 同 态 ), 140~142，290，392 。， 另 
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Hoperoft, J.E,, 1069, 525 

HTML ( 超 文 本 标记 语言 )，197~200 

Hufhnan, DD.A,. 383. .169 
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if-and-only-if proof ( 当 且 仅 当 证 明 ( 充 要 性 证 明 ))， 
11~13, 181 
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incompleteness theorem (不 完全 性 定理 )，325 
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independent-set problem (独立 集 间 题 )，459~463， 
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induction principle (归纳 原理 )，20 

inductive proof (归纳 证 明 )，19~28 

inductiye step (归纳 步骤 )，19，22~23 

infinite set (无 穷 集 合 ) ，8 
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213~215 .307 

init，of a language (语言 的 初段 )，148,，297 

initial state (初始 状态 )， 见 start state 

input symbol (输入 符号 ),，45, 57,,227,.,232,， 
20327, 335 

instantaneous description (瞬时 描述 )，230~233， 
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307, 391, 416~417 

intractable problem ( 难 解 问题 )，1~2，5，368， 
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295~297，392，437 
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leftmost derivation (最 左 推导 ), 177~179，186~191， 
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left-sentential form ( 左 句 型 )，186~191，243~244， 
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Levin, L. A., 481~482 
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Lex (一 种 词法 分 析 器 生成 工具 )，111~112，123 

lexical analyzer (词法 分 析 器 )，2，86，110~112 

linear integer programming problem (整数 线性 规划 
问题 )，476 

literal (文字 )，448 

LR(Kk) grammar (LR(Kk) 文 法 )，260 
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markup language (标记 语言 )， 见 HTML, XML 

max，of a language (语言 的 极 大 元 )，148，297 
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minimization，of DFA’s (DFA 的 最 小 化 )，160~165 
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Minsky, M.L., 374, 422~423 

modified Post's correspondence problem (修改 过 的 
波斯 特 对 应 问题 )，404-412 

modular arithmetic ( 同 余 算 术 )，514~517 
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Monte-carlo Turing machine “(蒙特 - 卡 罗 图 灵机 )， 
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Moore's law (摩尔 律 )，1 

Motwani, R., 525 

move (移动 )， 见 transition function 

multihead Turing machine (多 头 图 灵机 )，352 
multiple tracks (多 道 )， 见 Track 

multiplication 〈 乘 法 ) ，369，515~S$16 

multistack machine (多 堆栈 机 器 )， 见 stack machine 
multitape Turing machine (多 带 图 灵机 )，334~347 
mutual induction ( 互 归 纳 )，26~28 
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natural language (自然 语言 )，193 

Nanr，P (诺尔 )，224 

NC (顶点 覆盖 问题 ) ， 见 node-cover problem 

NFA ( 非 确 定型 有 穷 自 动机 )， 见 nondeterministic 
finite automaton 

node-cover problem (顶点 覆盖 问题 ) ，463~464，473 

nondeterministic finite automaton ( 非 确 定型 有 穷 自 动 
机 )，55~70，96,，151，164。 男 见 e-NFA 

nondeterministic polynomial space ( 非 确 定型 多 项 式 
空间 )， 见 NP5 

nondeterministic polynomial time ( 非 确 定型 多 项 式 
时 间 )， 见 XP 

nondeterministic Turing machine ( 非 确 定型 图 灵机 ,)， 
347~349，487，490~491，507。 另 见 NP，WPS 

nonrecursive language ( 非 递 归 语 言 )， 见 undecidable 
problem 

nonrecursively enumerable language ( 韭 递 归 可 枚 举 
语言 )， 见 recursively enumerable language 

nonterminal (并 终结 符 )， 见 variable 

normal form (范式 )，261~273 

NP ( 非 确 定型 多 项 式 时 间 类 )，431，435，437， 
484, 492~493, 511~512, 519~521 

NP-complete problem (NP 完全 问题 )，434~436， 
458~459，462，484~486。 另 见 clique problem， 
coloring problem, CSAT, dominating-set 
problem, edge-cover problem, exact-cover 
problem, firehouse problem, Hamilton-circuit 
problem, Hamilton-path problem, independent- 
set problem, knapsack problem, linear integer 
programming problem, node-cover problem, 
satisfiability problem, subgraph isomorphism 
problem, 3SAT, traveling salesman problem., 


unit-execution-time-scheduling problem 
NP-hard problem ( NP 难 问 题 )，435。 另 见 
intractable problem 
XNzP5s ( 非 确 定型 多 项 式 空间 类 )，487，491~492 
nullable symbol (可 空 符号 )，265~266,，304 
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observation (事实 )，17 

Oettinger, A.G., 260 

Ogden, W., 314 

Ogden's lemma ( 奥 格 登 引 理 )，286~287 
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P (确定 型 多 项 式 时 间 类 ),，426,，435，437， 
492~493, 511~512 

palindrome ( 回 文 )，172，179~180 

Papadimitriou, C.H., 525 

Parent ( 父 节 点 ， 父 母 )，184 

parse tree (语法 分 析 树 )，183~191，207~208，280。 
另 见 Tree 

parser (语法 分 析 器 ) ，171，193~196 

partial function (部 分 国 数 ( 偏 国 数 ) ) ，336 

partial solution，to PCP (PCP 的 部 分 解 )，404 

partial-removal operation (部 分 删除 运算 )，148~149， 
297 

partition (划分 )，162 
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PCP (波斯 特 对 应 问题 )， 见 Post’s correspondence 
problem 

PDA (下 推 自动 机 )， 见 pushdown automaton 

Perles, M., 1069." 314,. 422 

permutation，of a language (语言 的 置换 )，298 

pigeonhole principle ( 铝 介 原理 )，66 

Rtts, W.,. $3 

polynomial space (多 项 式 空 间 ) ，483，488~492 。 
男 见 P5 

polynomial time (多 项 式 时 间 )，5。 另 见 P，RP，ZPP 

polynomial-time reduction (多 项 式 时 间 归 约 )， 
423~426，433~435S ，492 

pop (弹出 )，226 

Post，E. (波斯 特 ) ，374，422~423 


Post's correspondence problem (波斯 特 对 应 问题 )， 
401~412 
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Pratt, V. R'.," $24~525 

precedence，of operators (运算 符 的 优先 级 ) ， 
90~91，209 

prefix property (前 级 性 质 )，254 

prime number (素数 )，484，512~521 

problem (问题 )，31~33，429 

product construction (乘积 构造 法 ) ，136~138 

production (产生 式 )，173。 男 见 &-production, unit 
production 

proof (证 明 )，5~6，12。 男 见 contradiction，proof 
by, deductive proof, if-and-only-if proof, 
inductive proof 

property，of languages (语言 的 性 质 )，397 

protocol (协议 )，2，39~45 

PS (多 项 式 空 间 类 )，469，487，491~492 

PS-complete problem (PS 完全 问题 )，492~493。 另 
见 quantified boolean formula, Shannon 
switching game 

pseudo-random number ( 伪 随 机 数 )，501 

public-key signature ( 公 和 所 签名 )，513~514 

pumping lemma (和 泵 引 理 )，128~132，279~287 

push ( 推 入 ， 压 入 ),，226 

pushdown automaton (下 推 自动 机 ),，225~252,，299，, 
另 见 deterministic pushdown automaton ，stack 


machine 
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QBF ( 带 量 词 的 布尔 公式 )， 见 quantified boolean 
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quadratic residue (二 次 剩余 )，522 

quantified boolean formula ( 带 量词 的 布尔 公式 )， 
493~501 

quantifier (量词 )，10，130 


quicksort (快速 排序 )，502 
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Rabin, M.O., 84, 524~525 

Raghavan, P., 525 

randomized Turing machine (随机 化 图 灵机 )， 
503~506 

random-number generator (随机 数 发 生 器 )，483， 
S01 


random-polynomial language (随机 多 项 式 语言 )， 


见 RP 

reachable symbol (可 达 符 号 ) ，262，264~265，304 

recursive definition (递归 定义 )，22~23 

recursive function (递归 函数 )，390~391 

recursive inference (递归 推理 ) ，175~176，186~188， 
191~193 

recursive language (递归 语言 )，334~335，383~387， 
488 

recursively enumerable language (递归 可 枚 举 语言 )， 
334，378~389，393~394 

reduction ( 归 约 )，321~324，392~394。 另 见 polynomial- 
time reduction 

register (寄存 器 )，365 

regular expression (正则 表达 式 )，4~5，85~123， 
154, S01 

regular language (正则 语言 )，182，253~254，291， 
294，417。 另 见 deterministic finite automaton ， 
nondeterministic finite automaton, pumping 
lemma, regular expression 

reversal ( 反 转 )，139~140，290，437 

Rice，H.G. ( 莱 斯 )，422~423 

Rice’s theorem ( 莱 斯 定理 )，397~399 

Riemann’s hypothesis (和 歼 曼 假设 )，525 

right-linear grammar ( 右 线 性 文法 )，182 

rightmost derivation (最 在 推 导 ) ， 
186~187，191 

right-sentential form ( 右 句 型 ) ，180，186~187，191 

Ritchie, D., 316 
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root ( 根 )，184~185 
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RP (随机 多 项 式 语言 )，483~484，502，506~512,， 
S517~518 

RSA code (RSA 密 码 ) ，$13 

Rudich, S., 374 

running time (运行 时 间 )， 见 time complexity 
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SAT (可 满足 性 问题 )， 见 satisfiability problem 

satisfiability problem (可 满足 性 问题 ) ，438~446， 
473，485 

Savitch，W.J. (了 萨 维 奇 )，525 

Saxena, N., 525 

Savitch’s theorem ( 萨 维 奇 定理 )，491 
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sentential form (名 型 ) ，180。 另 见 left-sentential tail ( 尾 )，243 

form, right-sentential form tape ( 带 )，326 
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shifting-over (平移 ) ，343 text search ee 68~71, 86, 112~114 
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和 of inputs (输入 的 规模 )，429 

Spanier, E.H., 169 

spanning tree (生成 树 ) ， 
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stack (堆栈 )，225~226，490 

stack machine (堆栈 机 器 )，355~358 

stack symbol (堆栈 符号 )，228，232 

star ( 星 号 )，88， 男 见 closure 

start state (初始 状态 )，46,，57，228，327 

start symbol (初始 符号 )，173，228 

State (人 本)，v3，39. 45, 571 2256~228, 232. 
327，335，337~339，364。 男 见 dead state 

state elimination (状态 消除 )，98~103 

Stearns, R.E., 169, 374, 481~482, 525 

Stockmeyer, L.J., S524~525 

storage device (存储 设备 ) ，362~363 

string ( 串 )，29~30，49，178，379 

string search ( 串 搜 索 )， 见 Text search 

structural induction (结构 归纳 法 )，23~26 

subgraph isomorphism problem ( 子 图 同 构 问题 )， 
475 

subroutine ( 子 程 序 )，341~343 

subset construction ( 子 集 构造 ) ，60~65 

substitution (代入 )，287~290 

switching circuit (开关 电路 ) ，127 


427。 另 见 minimum- 


theorem (定理 )， 

there exists ee 

Thompson, K., 126 

3SAT (三 元 可 满足 性 问题 )，447，456~458，473 

time complexity (时间 复杂 度 ) ，346~347，368~370， 
426, 516~517 

token (记号 )，110~112 

track ( 道 )，339~341 

transition diagram (转移 图 )， 
331~334 

transition function (转移 函数 )，45,，57，228，327， 
另 见 extended transition function 

transition table (转移 表 )，48~49 

transitive law (传递 律 ) ，161 

traveling salesman problem ( 货 郎 问题 )，419~433， 
472~473 

tree ( 树 )，23~25。 另 见 parse tree 

Treybig, L.B., 481 

trivial property (平凡 性 质 )，397 

truth assignment (赋值 ) ，438~439 

TSP (〈 货 郎 问题 ) ， 见 traveling salesman problem 

Turing，A.M. (图 灵 )，1，326，374~375$，422~423 

Turing machine (图 灵机 )，315，324~337，426， 
487~488。 男 见 code, for Turing machine，halting， 
of a Turing machine, Las-Vegas Turing machine, 
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ministic Turing machine, randomized Turing 
machine, recursively enumerable language, two- 
dimensional Turing machine, universal Turing 
machine 
two-dimensional Turing machine (二 维 图 灵机 ) ,352 
2SAT (二 元 可 满足 性 问题 )，448，458 
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Ullman, J.D., 36, 126, -224, 481~482, 525 

unambiguous grammar (无 歧义 文法 )， 见 ambiguous 
grammar 

undecidable problem (不 可 判定 问题 )，307，318， 
377~378,383~384,，393, 395~396，399,， 
412~418。 为 见 Post’s correspondence problem,， 
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union (并 ), 14, 86, 88, 97,104, 110,115~118, 
134, 199, 290, 392, 437 

unit pair (单位 对 )，269 

unit production (单位 产生 式 )，262，268~272 

unit-execution-time-scheduling problem (单位 执行 时 
间 调 度 问 题 )，476 

universal language (通用 语言 )，387~390 

universal Turing machine (通用 图 灵机 )，364， 
387~389 

UNIX regular expressions (UNIX 正 则 表达 式 )， 
108~110 


useless symbol (无 用 符号 ) ，261~265 
V 
variable ( 变 元 ) ，173，178 
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word ( 字 )， 见 String 
world-wide-web consortium (万维网 大会) ，224 
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XML (可 扩展 标记 语言 )，171,，200。 另 见 DTD 
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YACC (一 种 语法 分 析 器 生成 工具 (Yet Another 
Compiled Compiler 的 缩写 ) ) ，196~197，210， 
260 

Yamada, H., 125~126 

Yes-no problem (“是 ~ 否 ” 问 题 )，462 

yield (产物 )，185 

Younger, D.H., 304, 314 
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zero-error probabilistic polynomial language ( 零 错误 
概率 多 项 式 语言 )， 见 ZPP 

ZPP ( 零 错误 概率 多 项 式 语 言 ) ，483~484，502， 
S19~512 


